【发布时间】:2014-02-28 12:40:53
【问题描述】:
我观察到 Solr/Lucene 过于重视匹配特定查询词的 tf 上的所有查询词。
例如
假设我们的查询是:文本:(“红色”“夹克”“红色夹克”)
文档 A -> 包含 40 次“夹克”
文档 B -> 包含 1 次“红色夹克”(因为这个“红色”1 次和“夹克”1 次)
文档 B 获得了更高的分数,因为它包含查询的所有三个术语,但只有一次,而文档 A 的分数非常低,即使它包含一个术语的次数很多。
我能否以这样一种方式创建查询,即如果 Lucene 找到“红色夹克”的匹配项,它不会分别将其视为“红色”和“夹克”的匹配项?
【问题讨论】: