【问题标题】:Minimum scores in Lucene.net/Lucene?Lucene.net/Lucene 的最低分数?
【发布时间】:2013-02-04 17:36:38
【问题描述】:

是否可以设置在 Lucene 中返回结果的最低分数?

我有这个功能:

public Tuple<int,ICollection<Guid>> Search(string searchQuery,int maxResults)
{
    var booleanQuery = new BooleanQuery();
    var s1 = new TermQuery(new Term("companyName", searchQuery));
    booleanQuery.Add(s1, Occur.SHOULD);

    using (var searcher = new IndexSearcher(this.Directory))
    {
        TopDocs hits = searcher.Search(booleanQuery, maxResults);

        var ids = new List<Guid>();
        for (int i = 0; i < hits.ScoreDocs.Count(); i++)
        {
            var idString = searcher.Doc(hits.ScoreDocs[i].Doc).Get("id");
            ids.Add(new Guid(idString));
        }
        return new Tuple<int, ICollection<Guid>>(hits.TotalHits, ids);
    }
}

该函数搜索我的索引并返回与 searchQuery 匹配的公司的 ID,以及与搜索匹配的公司总数 - 因此我可以编写“显示 245 家匹配公司中的 1-20 家”。

我的问题是匹配的门槛很低。如果用户输入“accountant”,则搜索返回有意义的结果,但如果他们输入“adasdfsdf”,则返回不相关的结果。如果结果不够相关,我宁愿显示“抱歉,没有公司符合您的查询”之类的消息。

是否可以为比赛设置最低分数? TopDocs.TotalHits 属性会尊重这个分数吗?

【问题讨论】:

    标签: c# lucene lucene.net


    【解决方案1】:

    简而言之,没有。您不能真正在 Lucene 中创建最低分数截止点。这是一个discussion of why not。请注意,所讨论的案例与您所要求的略有不同,但困难大致相同(事实上,提供一个合理的分界点以用于不同的独立查询会引入更大的,尽管密切相关,困难)。

    解决此问题的更好方法是设计查询,使您不会得到不相关的结果。在您的示例中,我真的不明白为什么您会看到很多不相关的结果,所以我假设查询中添加了其他术语。在这种情况下,如果您只想获取与 new Term("companyName", searchQuery) 匹配的文档,则应使用 Occur.MUST booleanClause 添加它,例如:

    var booleanQuery = new BooleanQuery();
    var s1 = new TermQuery(new Term("companyName", searchQuery));
    booleanQuery.Add(s1, Occur.MUST);
    

    为了进一步解释,Occur.MUSTOccur.SHOULD 是您的问题所在。如果您有类似的查询:

    category:type1 companyName:asdfdas
    

    如果没有关于 companyName 的结果,那么您只会看到查询 category:type1 的结果。如果您确实与 companyName 匹配,则这些结果将被判断为具有更高的相关性,并且会首先显示,但它仍然会显示与该类别匹配的所有内容,只是在列表中较低的位置。在该示例中,这两个术语都添加了 BooleanClause.Occur.SHOULD,因此两者都是可选的(尽管在任何结果中仍必须找到至少一个匹配的术语)。

    如果您只想显示与类别和公司名称都匹配的术语,则应使用BooleanClause.Occur.MUST 在查询中将这两个术语都设为必填项。使用查询语法,这看起来像:

    +category:type1 +companyName:asdfdas
    

    或者构建一个布尔查询:

    var s1 = new TermQuery(new Term("companyName", "asdfdas"));
    booleanQuery.Add(s1, Occur.MUST);
    var s1 = new TermQuery(new Term("category", "type1"));
    booleanQuery.Add(s1, Occur.MUST);
    

    【讨论】:

    • 你是对的,查询中有更多术语 - 用于类别和描述等内容。不过,我不明白为什么我仍然会得到一大堆不相关的结果。我将尝试进一步阅读 lucene 使用的算法。
    猜你喜欢
    • 1970-01-01
    • 2010-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-07
    • 1970-01-01
    • 1970-01-01
    • 2011-02-21
    相关资源
    最近更新 更多