【发布时间】:2011-10-05 04:08:37
【问题描述】:
我需要在 Lucene 中使用 Jaccard 在 n-gram 上的相似度来计算查询和文档的相似度。由于 Jaccard 相似度是 IR 中非常常见的度量,我希望找到一个 Lucene 实现,但我找不到。
有人知道这样的实现吗?
【问题讨论】:
标签: lucene information-retrieval similarity
我需要在 Lucene 中使用 Jaccard 在 n-gram 上的相似度来计算查询和文档的相似度。由于 Jaccard 相似度是 IR 中非常常见的度量,我希望找到一个 Lucene 实现,但我找不到。
有人知道这样的实现吗?
【问题讨论】:
标签: lucene information-retrieval similarity
试试这个库http://sourceforge.net/projects/simmetrics/ 你会发现更多相似的函数。但 我会推荐你使用来自http://secondstring.sourceforge.net/ 的 SoftTFIDF,根据“名称匹配任务的字符串距离度量比较”,它具有最好的精度/召回率。 William W. Cohen 等人。
【讨论】: