【问题标题】:clustering documents in Solr index ( with custom distance)Solr 索引中的聚类文档(具有自定义距离)
【发布时间】:2014-01-25 07:46:20
【问题描述】:

我想使用 k-means 聚类(机器学习)对 solr lucene 中的文档进行聚类。一个文档通常有很多字段,有些是文本字段,有些是用于进行地理空间距离的位置(纬度和经度)。 Solr 提供了一种方法,可以根据索引中的特定字段(包括地理空间字段)(使用 solr 查询表示)来查找两个文档之间的分数(距离)。有没有办法利用这个“自定义距离”来做 k-means 算法?

只是想稍微详细说明一下“自定义距离”,通常给定“维度 1”的 X 值,并且在另一个文档中对于相同的“维度 1”有类似的数值,我们找到欧几里得距离。

但是,在这个 solr 用例中,文档之间的距离是通过使用给定文档集的 solr 相关性分数动态获得的。这相当于自定义距离。有什么工具或方法可以在这里提供帮助吗?

我可以使用 R 或 mahout 或 octave 来执行此操作吗?

我知道我们可以从 solr 导出术语向量并使用 mahout,但这似乎需要导出,并且还需要执行 solr 在 mahout 中再次执行的相同操作才能得分。同样,使用 solr 查询距离的地理空间和优雅也失去了。

编辑:solr carrot2 似乎没有削减,因为它针对搜索结果进行了优化(

【问题讨论】:

    标签: r solr machine-learning octave mahout


    【解决方案1】:

    您可以使用任何库或自行实现的 k-means 根据给定的相似度得分进行聚类。

    【讨论】:

    • 谢谢,看起来可行,但我不确定它是否会与 k-means 的自定义距离(在我的情况下为相似度得分)收敛。
    • 我毫不怀疑它会收敛。如果在 k-means 过程中相同的两个文档的相似度得分相同,则没有什么会阻碍它收敛。
    猜你喜欢
    • 2012-07-09
    • 2017-04-18
    • 2016-12-20
    • 2014-02-26
    • 2015-05-12
    • 2018-08-18
    • 2021-01-24
    • 1970-01-01
    • 2012-07-09
    相关资源
    最近更新 更多