【问题标题】:Lucene QueryParser ignores search term "BE"Lucene QueryParser 忽略搜索词“BE”
【发布时间】:2011-06-23 18:03:56
【问题描述】:

我正在尝试搜索几个字段,除非我使用术语“BE”,否则它工作正常。在这种情况下,lucene 只是忽略了该字段。如果我执行如下所示的操作,我会得到正确的结果,并且“查询”对象显示为“+flag:bf +type:cgo”。如果我将标志或类型术语中的任何一个设置为“BE”,则搜索的一部分将被忽略。 例如,如果我将 queryString 设置为 "flag:\"BE\" AND type:\"CGO\"",则查询对象将显示为:"+type:cgo",我会得到更多的命中。 “类型”也是如此 - 如果我将最后一个示例中的“CGO”更改为“BE”,它将被忽略。我没有尝试所有可能的 2 个字符组合(但我尝试了很多),但除了这个之外,所有的都按预期工作。我没有使用任何停止条款。

谢谢, 基因

String queryString = "flag:\"BF\" AND type:\"CGO\"";
QueryParser qp  = new QueryParser(Version.LUCENE_30, 
                  "type", new StandardAnalyzer(Version.LUCENE_30));

Query query = qp.parse(queryString);
IndexSearcher searcher = new IndexSearcher(reader.reopen());
TopDocs td = searcher.search(q, 5000);
logger.info("Found " + td.totalHits + " hits using " + query.toString() );

【问题讨论】:

    标签: search lucene


    【解决方案1】:

    默认情况下,StandardAnalyzer 使用一组停用词从文本中的索引词中排除“噪音”。我认为在 StandardAnalyzer 的上下文中,“BE”通常会被视为停用词。

    幸运的是,您有几种选择

    显而易见的是,将一组空的停用词传递给所使用的 StandardAnalyzer 的构造函数。

    但是,查看您的字段名称(“标志”和“类型”),它们看起来并不完全像是要​​包含简单的文本,而是更可能包含编码词。考虑到这一点,您可能会发现关键字分析器更合适。

    祝你好运,

    【讨论】:

    • 谢谢。使用关键字分析器而不是标准分析器解决了这个问题。
    【解决方案2】:

    您确实在使用停用词,尽管您可能不会尝试:

    QueryParser qp  = new QueryParser(Version.LUCENE_30, 
                  "type", new StandardAnalyzer(Version.LUCENE_30));
    

    StandardAnalyzer默认使用标准英文停用词,包括“be”。

    【讨论】:

    • 是的,你是对的。我没有意识到创建标准分析器时使用了停用词。通过使用关键字分析器来修复它。谢谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-06-22
    • 1970-01-01
    • 1970-01-01
    • 2022-01-16
    相关资源
    最近更新 更多