【发布时间】:2014-02-16 11:51:34
【问题描述】:
我正在运行 crawler4j 来查找一百万个 URL 的状态(http 响应)代码。
我没有设置任何过滤器来过滤掉要处理的 URL。
我得到了 90% 的 URL 的正确响应,但输出中缺少 10%。
它们甚至没有出现在 Webcrawler 扩展类的 handlePageStatusCode() 方法中。
可能由于各种问题,它们没有被处理。
是否可以找到那些丢失的 URL 进行重新处理?
我们能否改进抓取过程以不遗漏任何网址?
【问题讨论】:
-
如果你觉得我的回答合适你能接受吗?
标签: java web-crawler crawler4j