【发布时间】:2013-07-10 13:18:03
【问题描述】:
据我了解Solr's scoring function,以下两个查询应该是等效的。
即,score(q1, d) = score(q2, d) 对应语料库中的每个文档 d。
查询一:evolution OR selection OR germline OR dna OR rna OR mitochondria
查询 2:(evolution OR selection OR germline) OR (dna OR rna OR mitochondria)
这些查询显然在逻辑上是等价的(它们都返回相同的文档集)。此外,两个查询都包含相同的 6 个词,并且每个词在两个查询中都有 1 的提升。因此,每个术语对总分的贡献应该相同(相同的 TF、相同的 IDF、相同的提升)。
尽管如此,查询给出的分数不同。
通常,术语的连接 (a OR b OR c OR d) 与查询的连接 ((a OR b) OR (c OR d)) 不同。这两种查询在语义上有什么区别?是什么导致它们产生不同的得分?
我问的原因是我正在构建一个自定义请求处理程序,在该处理程序中我构造了第二种类型的查询(查询的结合),而我实际上可能需要构造第一种类型的查询(术语的结合) .换句话说,这就是我正在做的事情:
Query q1 = ... //conjunction of terms evolution, selection, germline
Query q2 = ... //conjunction of terms dna, rna, mitochondria
Query conjunctionOfQueries = new BooleanQuery();
conjunctionOfQueries.add(q1, BooleanClause.Occure.SHOULD);
conjunctionOfQueries.add(q2, BooleanClause.Occure.SHOULD);
也许我实际上应该这样做:
List<String> terms = ... //extract all 6 terms from q1 and q2
List<TermQuery> termQueries = ... //create a new TermQuery from each term in terms
Query conjunctionOfTerms = new BooleanQuery();
for (TermQuery t : termQueries) {
conjunctionOfTerms.add(t, BooleanClause.Occure.SHOULD);
}
【问题讨论】:
-
您是否尝试在结果中获得explain?我想知道查询解析器是否会产生与您预期的略有不同的查询。
-
@femtoRgon:谢谢,您的评论有助于找到答案。有兴趣的请看下文。