【发布时间】:2011-02-02 07:54:36
【问题描述】:
我正在尝试开发一个应用程序,在该应用程序中,我将为 Nutch 中的 urls 文件提供一组受限的 url。我可以通过从段中读取数据来抓取这些 url 并获取它们的内容。
我通过给出深度 1 进行了爬网,因为我不关心网页中的外链或内链。我只需要 urls 文件中的网页内容。
但执行此抓取需要时间。所以,建议我一种减少爬行时间并提高爬行速度的方法。我也不需要索引,因为我不关心搜索部分。
有人对如何加快抓取速度有建议吗?
【问题讨论】:
-
Arjun,你正在抓取的是我的网站!停下!
标签: nutch web-crawler