【发布时间】:2015-01-29 07:45:46
【问题描述】:
我有兴趣从网站的源代码中提取特定内容。我可以使用 JSoup 来做到这一点,方法是使用
获取整个源代码Document doc;
doc = Jsoup.connect("http://example.com").get();
Element divs = document.getElementById("importantDiv");
但是,问题是我需要每天执行大约 20000 次,才能获得 div 中发生的所有更改。每次创建整个文档都会占用大量网络带宽,我想避免这种情况。有没有一种方法可以提取所需的元素,而无需在客户端重新创建整个文档。
注意:代码 sn-p 是一个示例,而不是我需要提取的实际 URL 或 ID。
【问题讨论】:
-
不,如果不从源 URL 请求所有内容并对其进行解析,就无法做到这一点。一天20,000次听起来很过分。没有可以使用的API吗?
-
Rory :我正在尝试从商业网站提取数据,但我知道没有提供可用于上述目的的 API。 :(
-
如果它是第三方网站,那么如果你要求那么多,你的 IP 可能会被禁止。
标签: java javascript jquery html jsoup