【问题标题】:Apache Mahout + Pearson Correlation Ignores Users With Same Preference For Every ItemApache Mahout + Pearson 相关性忽略对每个项目具有相同偏好的用户
【发布时间】:2011-12-08 01:26:15
【问题描述】:

我将 Mahout 与 Pearson Correlation 算法结合使用,根据用户对多个项目的偏好来比较和查找相似用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择相同偏好的用户。有谁知道是否有办法将 Mahout 配置为不忽略为每个项目选择相同偏好值的人。

【问题讨论】:

    标签: mahout pearson


    【解决方案1】:

    这不是配置问题。在这种情况下,Pearson 相关性是未定义的,因此使用该度量不能计算它们之间的相似性。

    本质上 -- Pearson 是两个偏好系列的协方差与其标准差乘积的比率。但是当一个或两个序列相同时,标准差为0,协方差也为0,因此相关性为0/0。

    Mahout in Action 的第 4 章介绍了这个和其他一些 Pearson 陷阱,我是本书这部分和代码的作者。)

    【讨论】:

    • 谢谢。 Mahout 支持的另一种算法是否与 Pearson 一样有效,但允许用户选择统一的偏好值。
    • 你可以试试 EuclideanDistanceSimilarity。 LogLikelihoodSimilarity 是另一个不错的选择;它甚至不使用 pref 值。
    • 感谢您的回复,我有一个相关的后续问题,但不适合本主题。我想知道你是否可以看看它? stackoverflow.com/questions/7821944/… 谢谢。
    猜你喜欢
    • 1970-01-01
    • 2013-06-21
    • 1970-01-01
    • 2012-08-15
    • 1970-01-01
    • 1970-01-01
    • 2020-02-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多