Solr 和 nutch。如何保存种子？答案

【问题标题】：Solr and nutch. How to save seed?Solr 和 nutch。如何保存种子？
【发布时间】：2014-10-14 01:12:25
【问题描述】：

您好，我按照本教程进行操作

它按预期工作。

如何将爬取页面的种子保存到 solr？

我希望能够在 solr 中查询单词“foobar”并获取所有指向包含该单词的页面的种子。我想我必须在 schema.xml 中添加一个字段，但我不知道文件中的行应该是什么。

【问题讨论】：

您能详细解释一下您的问题吗？如果你想向 solr 发送一些字段，你应该在 solrIndexerWriter 类中添加一些代码行。如果你想从网页中解析出一些东西，你应该通过编辑解析器类来自定义它。
我有一个域列表。我想从每个页面下载 30 个页面，然后查找哪些种子导致页面包含搜索查询词。

【解决方案1】：

我不知道 Nutch 有什么方法可以做到这一点；您可以多次运行 Nutch，每次运行只有一个种子，并将种子索引为 Solr 中的静态字段，通过：

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

这可行，但根据您的种子之间的关系，您可能会花费更多时间进行爬网（如果一个页面可通过多个种子访问。同样在这种情况下，最后一个种子将是 Solr 中记录的那个） .

【讨论】：