【问题标题】:Nutch fetched pages aren't being indexed into SolrNutch 获取的页面没有被索引到 Solr
【发布时间】:2015-01-31 01:12:29
【问题描述】:

好的,所以我正在尝试设置 nutch 来抓取网站并将页面索引到 solr。我目前正在使用带有 Solr 4.10.2 的 Nutch 1.9 我已按照以下说明操作:http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search

爬取看起来很顺利,但是当我在 Solr 上检查集合时(使用 web ui),没有任何文档被索引......知道我可以在哪里检查问题吗?

【问题讨论】:

    标签: solr indexing nutch


    【解决方案1】:

    发现我的问题,我会留下它作为答案,以防其他人有同样的症状:

    我的问题是代理配置。我的 linux 机器将代理配置为在系统范围内应用,但我还必须将 Nutch 配置为使用相同的代理。一旦我改变了它,它就开始工作了。

    配置在config/nutch-default.xml下

    编辑更多信息

    更具体地说,这是我必须更改的代理配置:

    <property>
      <name>http.proxy.host</name>
      <value>xxx.xxx.xxx</value>
      <description>The proxy hostname.  If empty, no proxy is used.</description>
    </property>
    

    【讨论】:

    • 抱歉,您能否更具体地说明您更改了哪些选项以及如何更改?
    • @Mateva 我添加了示例代码,尽管如果您的 nutch-default.xml 文件是安装附带的文件,那么您只需查找“代理”一词即可找到它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-27
    • 2012-06-06
    • 2013-04-23
    • 2012-11-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多