【问题标题】:Elasticsearch - higher scoring if higher frequency of termElasticsearch - 如果词的频率越高,得分越高
【发布时间】:2013-05-13 22:04:00
【问题描述】:

我有 2 个文档,正在搜索关键字“Twitter”。假设两个文档都是带有“标签”字段的博客文章。

文档 A 在“标签”字段中只有 1 个术语,即“Twitter”。 文档 B 在“标签”字段中有 100 个术语,但其中 3 个是“Twitter”。

即使文档 B 的频率更高,弹性搜索也会为文档 A 提供更高的分数。但是分数被“稀释”了,因为它有更多的术语。我如何给文档 B 更高的分数,因为它具有更高的搜索词频率?

我知道 ElasticSearch/Lucene 会根据文档中的术语数量执行一些规范化。如何禁用此规范化,以便文档 B 获得更高的分数?

【问题讨论】:

    标签: lucene elasticsearch


    【解决方案1】:

    文档是否在不同的分片上找到?来自弹性搜索文档:

    “在特定分片上执行查询时,它不会考虑来自其他分片的词频和其他搜索引擎信息。如果我们想要支持准确的排名,我们需要先对所有分片执行查询分片并收集相关的词频,然后基于它执行查询。”

    解决方法是指定搜索类型。使用 dfs_query_and_fetch 搜索类型执行初始分散阶段,该阶段会计算分布的词频以进行更准确的评分。

    您可以阅读更多here

    【讨论】:

      【解决方案2】:

      正如另一个答案所说,看看您在单个分片上是否有相同的结果会很有趣。我想你会,这取决于标签字段的规范,在使用 tf/idf 相似度(默认)计算分数时会考虑到这一点。

      事实上,lucene 确实考虑了术语频率,即术语在字段中出现的次数(在您的情况下为 1 或 3),以及倒置文档频率,换句话说,术语是如何出现的在索引中频繁出现,以便将其与查询中的其他术语进行比较(在您的情况下,如果您搜索单个术语,则没有任何区别)。

      但还有另一个称为规范的因素,它奖励较短的字段并考虑最终的索引时间提升,这可以是每个字段(在映射中)甚至每个文档。您可以验证规范是否是您在搜索请求中启用解释选项并查看解释输出的结果的原因。

      我猜第一个文档仅包含该标签这一事实使得其他包含该标签多次但也包含许多其他标签的文档更为重要。如果您不喜欢这种行为,您可以在标签字段的映射中禁用规范。如果字段为"index":"analyzed"(默认),则应默认启用。如果您不想分析标签字段,您可以切换到"index":"not_analyzed"(这通常有意义,但取决于您的数据和域),或者在标签字段的映射中添加"omit_norms": true 选项。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2021-08-27
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-11-28
        • 2012-01-15
        • 2021-08-28
        • 2018-01-07
        相关资源
        最近更新 更多