Lucene QueryParser 忽略搜索词“BE”答案

【问题标题】：Lucene QueryParser ignores search term "BE"Lucene QueryParser 忽略搜索词“BE”
【发布时间】：2011-06-23 18:03:56
【问题描述】：

我正在尝试搜索几个字段，除非我使用术语“BE”，否则它工作正常。在这种情况下，lucene 只是忽略了该字段。如果我执行如下所示的操作，我会得到正确的结果，并且“查询”对象显示为“+flag:bf +type:cgo”。如果我将标志或类型术语中的任何一个设置为“BE”，则搜索的一部分将被忽略。例如，如果我将 queryString 设置为 "flag:\"BE\" AND type:\"CGO\""，则查询对象将显示为："+type:cgo"，我会得到更多的命中。 “类型”也是如此 - 如果我将最后一个示例中的“CGO”更改为“BE”，它将被忽略。我没有尝试所有可能的 2 个字符组合（但我尝试了很多），但除了这个之外，所有的都按预期工作。我没有使用任何停止条款。

谢谢，基因

String queryString = "flag:\"BF\" AND type:\"CGO\"";
QueryParser qp  = new QueryParser(Version.LUCENE_30, 
                  "type", new StandardAnalyzer(Version.LUCENE_30));

Query query = qp.parse(queryString);
IndexSearcher searcher = new IndexSearcher(reader.reopen());
TopDocs td = searcher.search(q, 5000);
logger.info("Found " + td.totalHits + " hits using " + query.toString() );

【问题讨论】：

标签： search lucene

【解决方案1】：

默认情况下，StandardAnalyzer 使用一组停用词从文本中的索引词中排除“噪音”。我认为在 StandardAnalyzer 的上下文中，“BE”通常会被视为停用词。

幸运的是，您有几种选择

显而易见的是，将一组空的停用词传递给所使用的 StandardAnalyzer 的构造函数。

但是，查看您的字段名称（“标志”和“类型”），它们看起来并不完全像是要包含简单的文本，而是更可能包含编码词。考虑到这一点，您可能会发现关键字分析器更合适。

祝你好运，

【讨论】：

谢谢。使用关键字分析器而不是标准分析器解决了这个问题。

【解决方案2】：

您确实在使用停用词，尽管您可能不会尝试：

QueryParser qp  = new QueryParser(Version.LUCENE_30, 
              "type", new StandardAnalyzer(Version.LUCENE_30));

StandardAnalyzer默认使用标准英文停用词，包括“be”。

【讨论】：

是的，你是对的。我没有意识到创建标准分析器时使用了停用词。通过使用关键字分析器来修复它。谢谢。