【发布时间】:2012-07-09 06:54:58
【问题描述】:
鉴于以下查询,我在 SQL 和 Lucene 之间获得了截然不同的排名/评分:
[伪代码] (statut* 在解释 * 的 3 内) AND 矛盾
我不认为这是解析器的问题,因为所有结果似乎都符合查询要求。但是,在前 1000 个结果中,我只得到了 172 个常见结果。由于 Lucene 和 SQL 的所有结果似乎都符合查询要求,我唯一剩下的猜测是评分在某种程度上完全不同。我很难找到任何关于 SQL 如何处理评分的信息,也很难找到比较 SQL 和 Lucene 评分的信息。我不一定期望两个引擎的结果集相同,但我期望超过 10% 的相似性,我至少需要能够解释巨大的差异。
我该如何解释这种显着差异?
【问题讨论】:
-
How can I explain this significant discrepancy?是什么让您认为两种不同的产品应该使用相似的排名/评分算法?随便用你喜欢的。或者开发自己的评分算法,并在 Lucene.Net 中使用(我不是说这会很容易)
标签: sql lucene full-text-search lucene.net sql-server-2012