【问题标题】:Apache Nutch with LuceneApache Nutch 与 Lucene
【发布时间】:2013-08-24 20:08:18
【问题描述】:

我们在 Lucene 中有一个遗留代码,作为一项新要求,我们需要使用 Apache Nutch 进行爬网。这意味着 Apache Nutch 应该抓取内容,然后现有的 Lucene 分析器应该生成索引。

我的问题是 Apache Nutch 已经生成了我无法从中生成内容的索引。我们不想使用 Nutch 索引。

您建议我使用其他爬虫还是仍然可以为此使用 Apache Nutch?

【问题讨论】:

  • 感谢您的链接,我刚刚执行了链接中提到的所有内容,但是如何恢复已抓取的内容?因为我看到两种类型的文件:索引和数据。我想要的只是能够在其上运行 Lucene 分析器。

标签: apache lucene indexing nutch


【解决方案1】:

Nutch:这是一种网络或文件爬虫,它将爬取网页或文件共享并获取和解析内容。它旨在与 Apache Solr 集成,因此具有许多功能,最有用的是将其生成的内容传递给 Solr,但 Nutch 不做索引。

Solr:Solr 是一个搜索服务器,它将使用 Lucene 为您的数据建立索引。一旦 Nutch 将文档通过(通过 http)Solr 将索引它们并存储 Lucene 索引。有一个很好的搜索界面允许您查询 Solr,它将以 XML 格式返回结果。

使用 Solr 和 Nutch - 它们旨在协同工作

查看Setting Up Solr 4Setting Up Nutch

【讨论】:

    【解决方案2】:

    您可以使用 solr 进行索引。 Solr 是一个基于 Lucene Java 搜索库的开源搜索服务器,可以使用 Nutch 轻松配置。

    命令:

    它将爬取种子 url 列表到指定深度并将它们索引到指定的 solr 服务器。 Solr 在内部创建 lucene 索引..

    参考:http://wiki.apache.org/nutch/NutchTutorial

    【讨论】:

    • 我暂时无法使用 SOLR,这是我有的限制,我必须使用现有的 Lucene 分析器进行索引。 Nutch 生成的索引似乎与 Lucene 不同,我不确定是否有办法将纯 Lucene Analyzer 与 Nutch Segments 一起使用。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多