使用 Lucene / SOLR 索引查找类似结果答案

【问题标题】：Find similar results with Lucene / SOLR index使用 Lucene / SOLR 索引查找类似结果
【发布时间】：2013-07-31 12:03:19
【问题描述】：

我们有一个应用程序，用于在大量 MS Word 文档中标记用户选择。我们用一个或多个关键字标签标记这些选择，通常是标题标签。我们想添加一个功能，即立即分析所选文本，并为标记器提供最可能的关键字和标题标签列表（基于现有的标记文本选择）

我们正在使用 SOLR 索引。有人告诉我，我们可以简单地将所选文本作为查询本身发出，以返回类似的选择。但是，所选文本的长度可能在 200 到 6000 个单词之间。一个 6000 字的查询在内存使用方面可能是个问题！

我认为我们可以做一些非常积极的停用词删除，以显着减少查询中的单词数量，只留下非常有意义的单词。在过去的 10 年里，我们一直在使用这个语料库，我们对主题和使用的词汇非常熟悉，所以这对我们来说很容易做到。但问题是我们也使用同一个索引让普通用户搜索索引，如果我们删除了太多常用词，那么他们的正常查询可能无法正常工作（尤其是短语查询）。

我们还希望在更小的范围内提升包含查询文本的结果，而不是随意散布在整个文档中。

另一个问题是我们允许嵌套选择。外部选择在性质上可能更笼统，大约 5000 个字长，内部选择会更短，主题更具体。但是，由于两个选择都包含相同的文本，所以当外部选择可能不那么相关时，SOLR 将它们都排名很高

过去几天我一直在阅读 SOLR 查询解析器文档，看起来这应该是可行的，但我仍然不确定我需要做些什么才能完成这项工作。任何建议将不胜感激。

【问题讨论】：

标签： solr lucene tags information-retrieval edismax

【解决方案1】：

Solr 具有多核功能。因此，如果您可以将一个核心用于内部工作，而将另一个核心用于公共领域，那么它可能会解决您的问题。你可以参考这个部分 http://wiki.apache.org/solr/Solr.xml%20(supported%20through%204.x) 或者您可以参考 solr 参考手册中的 Solr cores 和 solr.xml 部分。

【讨论】：