【发布时间】:2013-04-17 08:43:32
【问题描述】:
我正在尝试修改 Lucene 的默认相似度分数,如下所示。假设每个文档以及查询都由唯一的单词组成。我们对查询 q 和文档 d 的自定义相似度得分应该是com(d,q)/(size(d)+size(q))。其中com(d,q) 是出现在两者中的术语数(请注意,查询和文档中没有重复的术语)。 size(d) 和 size(q) 是每个词条的数量。我们使用WhiteSpaceAnalyzer。我们假设词条和文档的频率为 1,并且词条没有被提升。
【问题讨论】:
-
你的问题是?
标签: lucene size similarity scoring