Nutch 可以抓取所有网站。是否有任何规则可以抓取特定站点。在从特定站点开始抓取之前是否需要许可。？

【问题标题】：Nutch can crawl all website.Is there any rule to crawl specific site.Does need permission before start crawling from specific site.?Nutch 可以抓取所有网站。是否有任何规则可以抓取特定站点。在从特定站点开始抓取之前是否需要许可。？
【发布时间】：2013-05-15 03:54:41
【问题描述】：

使用爬虫我们可以搜索任何特定站点，但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则，我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索.任何人都可以根据上述问题部分帮助我解决这个问题吗？

如果特定站点在 robots.txt 中不允许使用 Nutch bot，那么如何使用 Nutch 搜索该站点？我们是否需要事先获得许可。

【问题讨论】：

标签： web-crawler nutch

【解决方案1】：

在 Nutch 中，您可以配置可以向特定主机发送多少并发请求。

您可以在 conf/nutch-site.xml 文件中覆盖此属性。默认情况下，Nutch 只会每 5 秒向服务器发送一次请求。

<property>
  <name>fetcher.server.delay</name>
  <value>5.0</value>
  <description>The number of seconds the fetcher will delay between 
   successive requests to the same server.</description>
</property>

在 robots.txt 文件中，您可以为特定用户代理字符串配置网站排除项，而不是相反。如果网站所有者没有明确禁止网站访问搜索引擎，您可以使用 Nutch 对其进行抓取。

例如排除所有搜索机器人：

User-Agent: *
Disallow: /

【讨论】：