【问题标题】:Nutch can crawl all website.Is there any rule to crawl specific site.Does need permission before start crawling from specific site.?Nutch 可以抓取所有网站。是否有任何规则可以抓取特定站点。在从特定站点开始抓取之前是否需要许可。?
【发布时间】:2013-05-15 03:54:41
【问题描述】:

使用爬虫我们可以搜索任何特定站点,但这会减慢该站点的带宽。在爬取特定站点或使用 nutch 之前是否有任何规则,我们可以毫无问题地搜索任何站点。我想使用 Nutch 创建垂直搜索.任何人都可以根据上述问题部分帮助我解决这个问题吗?

如果特定站点在 robots.txt 中不允许使用 Nutch bot,那么如何使用 Nutch 搜索该站点?我们是否需要事先获得许可。

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    在 Nutch 中,您可以配置可以向特定主机发送多少并发请求。

    您可以在 conf/nutch-site.xml 文件中覆盖此属性。 默认情况下,Nutch 只会每 5 秒向服务器发送一次请求。

    <property>
      <name>fetcher.server.delay</name>
      <value>5.0</value>
      <description>The number of seconds the fetcher will delay between 
       successive requests to the same server.</description>
    </property>
    

    在 robots.txt 文件中,您可以为特定用户代理字符串配置网站排除项,而不是相反。 如果网站所有者没有明确禁止网站访问搜索引擎,您可以使用 Nutch 对其进行抓取。

    例如排除所有搜索机器人:

    User-Agent: *
    Disallow: /
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-06-18
      • 2015-06-24
      • 2010-11-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多