从结果中排除类似的文档（重复）答案

【问题标题】：Exclude similar documents (duplicates) from result从结果中排除类似的文档（重复）
【发布时间】：2015-08-12 20:15:28
【问题描述】：

我存储来自某些新闻来源的所有文章。源自例如的新闻文章Cnn.com，可能被其他人转发。实际上，我最终多次保存相同的文章。

如果我搜索“特斯拉”，我可能会得到 3 篇彼此 90% 相等的文章。我可以使用Levenshtein distance 在我的应用程序中比较和过滤重复项，但我宁愿让 ES 过滤它。

我可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first吗？

干杯，马丁

【问题讨论】：

【解决方案1】：

如果您真的需要将所有这些记录保留在 ES 中（而不是在索引之前使用 levenshtein 过滤掉），那么您可能正在寻找 top hits aggregations字段崩溃。

【讨论】：