【发布时间】:2014-10-14 01:12:25
【问题描述】:
您好,我按照本教程进行操作
http://wiki.apache.org/nutch/NutchTutorial
它按预期工作。
如何将爬取页面的种子保存到 solr?
我希望能够在 solr 中查询单词“foobar”并获取所有指向包含该单词的页面的种子。我想我必须在 schema.xml 中添加一个字段,但我不知道文件中的行应该是什么。
【问题讨论】:
-
您能详细解释一下您的问题吗?如果你想向 solr 发送一些字段,你应该在 solrIndexerWriter 类中添加一些代码行。如果你想从网页中解析出一些东西,你应该通过编辑解析器类来自定义它。
-
我有一个域列表。我想从每个页面下载 30 个页面,然后查找哪些种子导致页面包含搜索查询词。
标签: solr web-crawler config nutch