【发布时间】:2013-08-24 20:08:18
【问题描述】:
我们在 Lucene 中有一个遗留代码,作为一项新要求,我们需要使用 Apache Nutch 进行爬网。这意味着 Apache Nutch 应该抓取内容,然后现有的 Lucene 分析器应该生成索引。
我的问题是 Apache Nutch 已经生成了我无法从中生成内容的索引。我们不想使用 Nutch 索引。
您建议我使用其他爬虫还是仍然可以为此使用 Apache Nutch?
【问题讨论】:
-
感谢您的链接,我刚刚执行了链接中提到的所有内容,但是如何恢复已抓取的内容?因为我看到两种类型的文件:索引和数据。我想要的只是能够在其上运行 Lucene 分析器。
标签: apache lucene indexing nutch