Nutch 2.3.1 在抓取 Deep Web

【问题标题】：Nutch 2.3.1 in crawl Deep WebNutch 2.3.1 在抓取 Deep Web
【发布时间】：2018-02-09 06:03:38
【问题描述】：

我按照教程从

Nutch Wiki "SetupNutchAndTor"(https://wiki.apache.org/nutch/SetupNutchAndTor)

设置nutch-site.xml

  <property>
        <name>http.proxy.host</name>
        <value>127.0.0.1</value>
        <description>The proxy hostname.  If empty, no proxy is used.
        </description>
  </property>

    <property>
        <name>http.proxy.port</name>
        <value>8118</value>
        <description>The proxy port.</description>
    </property>

但仍然没有从 .onion 链接中爬取任何内容，也没有索引到 Solr。有谁知道是什么问题？

【问题讨论】：

标签： solr web-crawler nutch deep-web

【解决方案1】：

日志中有什么？

使用 StormCrawler 仅供参考，感谢 this commit，您可以直接使用 SOCKS 代理

您需要使用 OKHTTP 进行协议实现并像这样配置它

http.protocol.implementation: "com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol" https.protocol.implementation: "com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol"

http.proxy.host: 本地主机
http.proxy.port: 9050
http.proxy.type: "SOCKS"

【讨论】：

获取页面时似乎没有显示任何错误。正在获取wikitjerrta4qgz4.onion（队列抓取延迟=5000ms）正在获取laz-img-cdn.alicdn.com（队列抓取延迟=5000ms）