【发布时间】:2015-07-16 22:40:18
【问题描述】:
我有一个程序,它使用 Java HttpConnection 连接到一个 Url。输入流由 jsoup 解析。我的问题是每个 URL 大约需要 1 秒。该网页有大约12000行代码,但我只需要一个特定区域(一个div内大约500行),所以我想知道我是否可以预处理输入流并将这部分代码交给jsoup进行解析。由于我有大约 100.000 页要爬网,我无法在一天内使用一台服务器处理它。我希望一种预处理可以降低解析时间。像 50-150 毫秒。我已经检查过 jsoup 解析是瓶颈,而不是互联网连接/下载。
我会很感激任何提示。
【问题讨论】:
-
你用的是哪个版本的jsoup?
-
尝试升级到最新版本:1.8.2
-
嘿 Luiggi,不幸的是,这只是通过解析获得了大约 20ms 的好处......所以我从 1000ms 下降到 980ms :) 我会尝试其他解决方案。因为我有结果,所以我会在这里发布。对于任何进一步的提示,我很高兴
标签: java parsing web-crawler jsoup httpconnection