【问题标题】:Why Does LogLikelihoodSimilarity function return values greater than 1.0 for a dataset of 0s and 1s?为什么 LogLikelihoodSimilarity 函数对于 0 和 1 的数据集返回大于 1.0 的值?
【发布时间】:2012-04-28 01:43:20
【问题描述】:

我有一个表示为 1.0 的大型偏好数据集,我正在使用 Tanimoto Similarity 函数和通用布尔用户和项目偏好推荐器。推荐值通常介于 0 和 1.0 之间。

许多来源,例如 Mahout in Action 书籍和this prior SO thread 推荐对布尔数据集使用 LogLikelihoodSimilarity 指标而不是 Tanimoto。当我切换到 LogLikelihood Similarity 指标时,它产生了一些更高范围内的分数,例如 11。我不得不回到 Tanimoto 以获得更有意义的评级。您能否提出任何可能的修复建议,还是我误解了推荐项目分数的返回值?

【问题讨论】:

    标签: similarity mahout collaborative-filtering


    【解决方案1】:

    在没有评分的情况下,您观察到的值不是预测评分。毕竟都是1.0,不能用来做排名。结果实际上是相似性的总和,这就是它可以任意大的原因。它不应该在 [0,1] 或类似的地方。

    【讨论】:

    • 那么使用 LogLikelihoodSimilarity,我们将如何对预测进行评分。是否可以设置一个阈值来表示关联或缺乏关联?
    • 您仍然按价值对预测进行排名。不,没有魔法门槛;这取决于您的数据和用例。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-02-12
    • 1970-01-01
    • 1970-01-01
    • 2018-09-30
    • 1970-01-01
    • 2021-11-19
    • 2019-06-26
    相关资源
    最近更新 更多