【发布时间】:2019-06-19 02:02:41
【问题描述】:
在 Elasticsearch 中,是否可以对文本最相似的文档进行分组,而无需提供初始查询以进行比较?
我知道可以查询和获取 MLT("more like this document") 但是,是否可以根据字段值在索引中对文档进行聚类?
例如:
document 1: The quick brown fox jumps over the lazy dog
document 2: Barcelona is a great city
document 3: The fast orange fox jumps over the lazy dog
document 4: Lotus loft Room - Bear Mountains Neighbourhood
document 5: I do not like to eat fish
document 6: "Lotus Loft" Condo From $160.00 CAD/night, sleeps up to 4
document 7: Lotus Loft
现在,执行某种聚合,它可以在不提供搜索查询的情况下进行分组:
Group 1: document 1 and document 3
Group 2: document 2
Group 3: document 4 and document 6 and document 7
Group 4: document 5
或
请告诉我其他查找不同文档聚类的方法,例如使用 Apache Spark、KNN、无监督学习方式或任何其他算法来查找近似重复的文档或聚类相似的文档?
我只想根据我的 elasticsearch 文档的国家、城市、纬度、属性名称或描述等字段对我的文档进行聚类。
基本上我想知道-
如何使用 python 文本分析/无监督学习与 KNN/pyspark 与 MLIB 或任何其他文档聚类算法制作相似文档的集群(例如 json/csv)或查找重复文档?给我一些提示/开源项目或任何其他资源链接。我只需要一些具体的例子或教程来完成这个任务
【问题讨论】:
标签: cluster-analysis knn cosine-similarity unsupervised-learning morelikethis