【发布时间】:2015-08-12 20:15:28
【问题描述】:
我存储来自某些新闻来源的所有文章。源自例如的新闻文章Cnn.com,可能被其他人转发。实际上,我最终多次保存相同的文章。
如果我搜索“特斯拉”,我可能会得到 3 篇彼此 90% 相等的文章。我可以使用Levenshtein distance 在我的应用程序中比较和过滤重复项,但我宁愿让 ES 过滤它。
我可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first吗?
干杯, 马丁
【问题讨论】:
标签: elasticsearch levenshtein-distance