【发布时间】:2016-09-06 18:54:17
【问题描述】:
我们正在运行 SOLR 4.3.1,我有一个关于控制 SOLR 如何对某些文档进行评分的问题。
在某些情况下,我们为质量“差”的文档编制索引 - 正文(在这种情况下为描述字段)可能只有 3 或 4 个单词。其他文件可能有更好的描述。执行搜索时会出现问题,并且在“好”(较长)和“差”(较短)文档中都找到了搜索词。
SOLR 似乎对较短文档中的匹配项评分较高,这是有道理的,因为搜索的词可能只有 3 个或 4 个词中的 1 个,因此它比描述较长的文档(其中只有在 100 个单词中找到 1 或 2 个匹配项(例如)。
是否有可能以某种方式惩罚或降低非常短文档的分数?我知道一些非常短的文档可能是可以的,但作为一般规则,在我们的案例中,非常短的文档通常是“质量差”。
建议?
我们正在使用 edismax 搜索。
谢谢,
比尔
【问题讨论】: