【发布时间】:2014-01-25 07:46:20
【问题描述】:
我想使用 k-means 聚类(机器学习)对 solr lucene 中的文档进行聚类。一个文档通常有很多字段,有些是文本字段,有些是用于进行地理空间距离的位置(纬度和经度)。 Solr 提供了一种方法,可以根据索引中的特定字段(包括地理空间字段)(使用 solr 查询表示)来查找两个文档之间的分数(距离)。有没有办法利用这个“自定义距离”来做 k-means 算法?
只是想稍微详细说明一下“自定义距离”,通常给定“维度 1”的 X 值,并且在另一个文档中对于相同的“维度 1”有类似的数值,我们找到欧几里得距离。
但是,在这个 solr 用例中,文档之间的距离是通过使用给定文档集的 solr 相关性分数动态获得的。这相当于自定义距离。有什么工具或方法可以在这里提供帮助吗?
我可以使用 R 或 mahout 或 octave 来执行此操作吗?
我知道我们可以从 solr 导出术语向量并使用 mahout,但这似乎需要导出,并且还需要执行 solr 在 mahout 中再次执行的相同操作才能得分。同样,使用 solr 查询距离的地理空间和优雅也失去了。
编辑:solr carrot2 似乎没有削减,因为它针对搜索结果进行了优化(
【问题讨论】:
标签: r solr machine-learning octave mahout