【问题标题】:Solr and nutch. How to save seed?Solr 和 nutch。如何保存种子?
【发布时间】:2014-10-14 01:12:25
【问题描述】:

您好,我按照本教程进行操作

http://wiki.apache.org/nutch/NutchTutorial

它按预期工作。

如何将爬取页面的种子保存到 solr?

我希望能够在 solr 中查询单词“foobar”并获取所有指向包含该单词的页面的种子。我想我必须在 schema.xml 中添加一个字段,但我不知道文件中的行应该是什么。

【问题讨论】:

  • 您能详细解释一下您的问题吗?如果你想向 solr 发送一些字段,你应该在 solrIndexerWriter 类中添加一些代码行。如果你想从网页中解析出一些东西,你应该通过编辑解析器类来自定义它。
  • 我有一个域列表。我想从每个页面下载 30 个页面,然后查找哪些种子导致页面包含搜索查询词。

标签: solr web-crawler config nutch


【解决方案1】:

我不知道 Nutch 有什么方法可以做到这一点;您可以多次运行 Nutch,每次运行只有一个种子,并将种子索引为 Solr 中的静态字段,通过:

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

这可行,但根据您的种子之间的关系,您可能会花费更多时间进行爬网(如果一个页面可通过多个种子访问。同样在这种情况下,最后一个种子将是 Solr 中记录的那个) .

【讨论】:

  • 我有大约 3000000 个域,所以这是不可能的。
猜你喜欢
  • 2014-08-22
  • 1970-01-01
  • 1970-01-01
  • 2015-08-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多