【问题标题】:NUTCH does not crawl a particular websiteNUTCH 不会抓取特定网站
【发布时间】:2014-07-07 16:06:02
【问题描述】:

我正在使用 Apache NUTCH 2.2.1 版来抓取一些网站。除了http://eur-lex.europa.eu/homepage.html 网站之外,一切正常。

我尝试使用 Apache NUTCH 1.8 版,我的行为相同,但没有获取任何内容。 它获取并解析入口页面,但之后就好像无法提取其链接。

我总是看到以下内容:

------------------------------
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread4, activeThreads=3
-finishing thread FetcherThread3, activeThreads=2
-finishing thread FetcherThread2, activeThreads=1
0/1 spinwaiting/active, 0 pages, 0 errors, 0.0 0 pages/s, 0 0 kb/s, 0 URLs in 1 queues
-finishing thread FetcherThread0, activeThreads=0

-----------------

有什么想法吗?

【问题讨论】:

    标签: nutch web-crawler


    【解决方案1】:

    这可能是因为该网站的 robots.txt 文件限制了您的抓取工具对该网站的访问。

    默认情况下,nutch 会检查 robots.txt 文件,该文件位于 http://yourhostname.com/robots.txt,如果不允许抓取该站点,则不会抓取任何页面。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-08-04
      • 1970-01-01
      • 1970-01-01
      • 2014-06-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多