【问题标题】:Nutch 2.3.1 in crawl Deep WebNutch 2.3.1 在抓取 Deep Web
【发布时间】:2018-02-09 06:03:38
【问题描述】:

我按照教程从

  1. Nutch Wiki "SetupNutchAndTor"(https://wiki.apache.org/nutch/SetupNutchAndTor)

  2. 设置nutch-site.xml

      <property>
            <name>http.proxy.host</name>
            <value>127.0.0.1</value>
            <description>The proxy hostname.  If empty, no proxy is used.
            </description>
      </property>
    
        <property>
            <name>http.proxy.port</name>
            <value>8118</value>
            <description>The proxy port.</description>
        </property>
    

但仍然没有从 .onion 链接中爬取任何内容,也没有索引到 Solr。有谁知道是什么问题?

【问题讨论】:

    标签: solr web-crawler nutch deep-web


    【解决方案1】:

    日志中有什么?

    使用 StormCrawler 仅供参考,感谢 this commit,您可以直接使用 SOCKS 代理

    您需要使用 OKHTTP 进行协议实现并像这样配置它

    http.protocol.implementation: "com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol" https.protocol.implementation: "com.digitalpebble.stormcrawler.protocol.okhttp.HttpProtocol"

    http.proxy.host: 本地主机
    http.proxy.port: 9050
    http.proxy.type: "SOCKS"

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多