【发布时间】:2013-05-15 03:54:41
【问题描述】:
使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索.任何人都可以根据上述问题部分帮助我解决这个问题吗?
如果特定站点在 robots.txt 中不允许使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。
【问题讨论】:
标签: web-crawler nutch
使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索.任何人都可以根据上述问题部分帮助我解决这个问题吗?
如果特定站点在 robots.txt 中不允许使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。
【问题讨论】:
标签: web-crawler nutch
在 Nutch 中,您可以配置可以向特定主机发送多少并发请求。
您可以在 conf/nutch-site.xml 文件中覆盖此属性。 默认情况下,Nutch 只会每 5 秒向服务器发送一次请求。
<property>
<name>fetcher.server.delay</name>
<value>5.0</value>
<description>The number of seconds the fetcher will delay between
successive requests to the same server.</description>
</property>
在 robots.txt 文件中,您可以为特定用户代理字符串配置网站排除项,而不是相反。 如果网站所有者没有明确禁止网站访问搜索引擎,您可以使用 Nutch 对其进行抓取。
例如排除所有搜索机器人:
User-Agent: *
Disallow: /
【讨论】: