【发布时间】:2015-04-06 22:38:35
【问题描述】:
我在弹性搜索索引中存储了来自不同来源的 RSS 提要的大量新闻文章。在我进行搜索查询的那一刻,它会为我一次查询返回很多类似的新闻文章,因为相同的新闻主题会被许多 RSS 源覆盖。
相反,我想做的是仅将一组文章中的一篇新闻文章返回到同一主题。所以我需要以某种方式识别哪些文章是关于同一主题的,对这些文档进行聚类并仅返回此类聚类中“最佳”的文章。
解决这个问题最方便的方法是什么? 我可以以某种方式使用弹性搜索更像这个 API 吗?或者https://github.com/carrot2/elasticsearch-carrot2 插件是要走的路吗?还是根本没有方便的方法,我必须以某种方式实现我自己的http://en.wikipedia.org/wiki/K-means_clustering 或http://en.wikipedia.org/wiki/Non-negative_matrix_factorization 版本来集群我的文档?
【问题讨论】:
标签: algorithm elasticsearch cluster-analysis