【问题标题】:Document search in Lucene/Solr, Whoosh, Sphinx, XapianLucene/Solr、Whoosh、Sphinx、Xapian 中的文档搜索
【发布时间】:2011-10-07 04:15:54
【问题描述】:

我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以它似乎是一个明显的赢家。

但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?

【问题讨论】:

  • 不完全是。在提出这个问题时,我想专门索引丰富的文档。我选择了 Solr。我继续使用数据库元数据来索引数据库和丰富的文档。

标签: solr full-text-search sphinx xapian whoosh


【解决方案1】:

在 Sphinx 上,您可以通过 xmlpipe_command 选项使用 PHP 脚本转换文件。由于 PHP 有 Tika 包装器,因此编写脚本和设置本身并不难。

【讨论】:

    猜你喜欢
    • 2011-03-14
    • 2020-10-06
    • 2011-01-17
    • 1970-01-01
    • 1970-01-01
    • 2010-10-30
    • 1970-01-01
    • 2016-02-18
    相关资源
    最近更新 更多