【发布时间】:2011-10-07 04:15:54
【问题描述】:
我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以它似乎是一个明显的赢家。
但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?
【问题讨论】:
-
不完全是。在提出这个问题时,我想专门索引丰富的文档。我选择了 Solr。我继续使用数据库元数据来索引数据库和丰富的文档。
标签: solr full-text-search sphinx xapian whoosh