【问题标题】:Jaccard Similarity in LuceneLucene 中的 Jaccard 相似性
【发布时间】:2011-10-05 04:08:37
【问题描述】:

我需要在 Lucene 中使用 Jaccard 在 n-gram 上的相似度来计算查询和文档的相似度。由于 Jaccard 相似度是 IR 中非常常见的度量,我希望找到一个 Lucene 实现,但我找不到。

有人知道这样的实现吗?

【问题讨论】:

    标签: lucene information-retrieval similarity


    【解决方案1】:

    据我所知,可以轻松与 Lucene 集成的唯一实现是来自 LingPipe 的实现(请注意,它仅对非商业/研究用途免费)。 Here 是一篇博客文章,展示了如何在 LingPipe 中使用它。 LingPipe 网站和this book 上提供了有关如何连接这两个库的详细说明。

    但是,我还没有评估过,如果您自己集成一些其他实现不是更容易(也是从许可的角度来看)——这只是一个对我有用的解决方案。

    【讨论】:

      【解决方案2】:

      试试这个库http://sourceforge.net/projects/simmetrics/ 你会发现更多相似的函数。但 我会推荐你​​使用来自http://secondstring.sourceforge.net/ 的 SoftTFIDF,根据“名称匹配任务的字符串距离度量比较”,它具有最好的精度/召回率。 William W. Cohen 等人。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-03-07
        • 1970-01-01
        • 2018-01-02
        • 1970-01-01
        • 1970-01-01
        • 2013-08-21
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多