【发布时间】:2014-11-23 12:45:45
【问题描述】:
我正在使用 Crawler4j 爬虫爬取一些域。现在我想提高爬虫的效率,我希望我的爬虫在给定的时间段内使用我的全部带宽并爬取尽可能多的 url。为此我是进行以下设置:-
- 我增加了编号。爬虫线程数为 10(使用此函数 ContentCrawler('classfilename',10);)
- 我已将礼貌延迟减少到 50 毫秒(使用 Crawlconfig.setpolitenessdelay(50);)
- 我将爬行深度设为 2(使用 Crawlconfig.setMaxDepthOfCrawling(2))
现在我想知道的是:-
1) 此类设置是否有任何副作用。
2) 除此以外我还有什么需要做的,这样我才能提高爬虫速度。
3) 有人能告诉我每个设置的最大限制吗(例如:- crawler4j 一次支持的最大线程数等)。因为我已经浏览了 Crawler4j 的代码,但我没有找到任何限制任何地方。
4)如何在不检查robots.txt文件的情况下抓取一个域。因为我知道crawler4j在抓取之前首先检查一个域的robots.txt文件。我不想要那个!!
5)page fetcher 是如何工作的(请简单解释一下)
感谢您的任何帮助,如果问题很愚蠢,请放轻松。
【问题讨论】:
标签: java web-crawler crawler4j