【问题标题】:Exclude similar documents (duplicates) from result从结果中排除类似的文档(重复)
【发布时间】:2015-08-12 20:15:28
【问题描述】:

我存储来自某些新闻来源的所有文章。源自例如的新闻文章Cnn.com,可能被其他人转发。实际上,我最终多次保存相同的文章。

如果我搜索“特斯拉”,我可能会得到 3 篇彼此 90% 相等的文章。我可以使用Levenshtein distance 在我的应用程序中比较和过滤重复项,但我宁愿让 ES 过滤它。

我可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first吗?

干杯, 马丁

【问题讨论】:

    标签: elasticsearch levenshtein-distance


    【解决方案1】:

    如果您真的需要将所有这些记录保留在 ES 中(而不是在 索引之前使用 levenshtein 过滤掉),那么您可能正在寻找 top hits aggregations字段崩溃。

    也可以看看this SO question

    【讨论】:

      猜你喜欢
      • 2014-02-12
      • 2012-05-26
      • 1970-01-01
      • 2018-12-03
      • 1970-01-01
      • 2020-05-31
      • 2012-03-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多