Solr 索引中的聚类文档（具有自定义距离）答案

【问题标题】：clustering documents in Solr index ( with custom distance)Solr 索引中的聚类文档（具有自定义距离）
【发布时间】：2014-01-25 07:46:20
【问题描述】：

我想使用 k-means 聚类（机器学习）对 solr lucene 中的文档进行聚类。一个文档通常有很多字段，有些是文本字段，有些是用于进行地理空间距离的位置（纬度和经度）。 Solr 提供了一种方法，可以根据索引中的特定字段（包括地理空间字段）（使用 solr 查询表示）来查找两个文档之间的分数（距离）。有没有办法利用这个“自定义距离”来做 k-means 算法？

只是想稍微详细说明一下“自定义距离”，通常给定“维度 1”的 X 值，并且在另一个文档中对于相同的“维度 1”有类似的数值，我们找到欧几里得距离。

但是，在这个 solr 用例中，文档之间的距离是通过使用给定文档集的 solr 相关性分数动态获得的。这相当于自定义距离。有什么工具或方法可以在这里提供帮助吗？

我可以使用 R 或 mahout 或 octave 来执行此操作吗？

我知道我们可以从 solr 导出术语向量并使用 mahout，但这似乎需要导出，并且还需要执行 solr 在 mahout 中再次执行的相同操作才能得分。同样，使用 solr 查询距离的地理空间和优雅也失去了。

编辑：solr carrot2 似乎没有削减，因为它针对搜索结果进行了优化（

【问题讨论】：

标签： r solr machine-learning octave mahout

【解决方案1】：

您可以使用任何库或自行实现的 k-means 根据给定的相似度得分进行聚类。

【讨论】：

谢谢，看起来可行，但我不确定它是否会与 k-means 的自定义距离（在我的情况下为相似度得分）收敛。
我毫不怀疑它会收敛。如果在 k-means 过程中相同的两个文档的相似度得分相同，则没有什么会阻碍它收敛。