【问题标题】:Calculating similarity between and centroid of Lucene documents计算Lucene文档之间的相似度和质心
【发布时间】:2011-03-27 16:56:40
【问题描述】:

为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是用 tf-idf 加权构建我自己的向量空间模型,使用 TermFreqVectors 和整体词频来填充它。

我的问题是:这不是一种有效的方法,有更好的方法吗?

这感觉有点不清楚,所以任何关于如何改进我的问题的建议也很感激。

【问题讨论】:

    标签: java lucene cluster-analysis similarity tf-idf


    【解决方案1】:

    【讨论】:

    • 我已经看过它们,但无论如何它们都是相关链接。
    【解决方案2】:

    简短的回答是:不。

    我花了很多时间(太多时间)研究这个问题,据我所知,您可以制作自己的向量空间模型并从中工作,或者使用 Mahout 生成 Mahout 向量,您可以从中比较文档。我会继续做我自己的,所以我将这个问题标记为已回答!

    【讨论】:

    • 很抱歉碰到这样的问题,请问您是怎么​​解决的呢?您是否必须自己实现所有功能,或者您是否能够重用 Lucene 的一些隐藏的现有组件?谢谢
    【解决方案3】:

    为了获得一个文档与另一个文档的相似性,为什么不使用一个文档的内容进行一次查询并针对索引运行查询呢? 这样,您将获得分数(余弦相似度值)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-11-05
      • 1970-01-01
      • 2013-02-14
      • 2012-05-25
      • 2022-01-08
      • 2012-02-12
      • 2012-12-08
      相关资源
      最近更新 更多