在 Apache Mahout 中显示两个用户之间的 pearson 相关相似性答案

【问题标题】：Display pearson correlation similarity between two users in Apache Mahout在 Apache Mahout 中显示两个用户之间的 pearson 相关相似性
【发布时间】：2014-12-20 05:50:45
【问题描述】：

有人知道如何在 Apache Mahout 中获取给定数据集的任意两个用户之间的相似度数值吗？

【问题讨论】：

标签： mahout-recommender

【解决方案1】：

有几种方法，您的数据是什么样的？是购买、观看或评分等交互数据吗？

如果是这样，itemsimilarity 或 spark-itemsimilarity 将起作用，但不会交换项目和用户 ID。如果您将数据编码为稀疏矩阵，每个用户一行，您还可以使用 rowsimilarity 或 spark-rowsimilarity。

对于 hadoop 作业，ID 必须是 Mahout ID，项目和用户的非零行号和列号。对于 Spark 作业，您可以使用所需的任何 ID——它们将被读取为文本，因此必须是唯一的字符串。

Pearson 仅受 hadoop 作业支持。 Spark 作业仅使用对数似然比。在协同过滤应用程序中，LLR 几乎总是优于其他“相似性”指标。

【讨论】：