【发布时间】:2014-12-20 05:50:45
【问题描述】:
有人知道如何在 Apache Mahout 中获取给定数据集的任意两个用户之间的相似度数值吗?
【问题讨论】:
有人知道如何在 Apache Mahout 中获取给定数据集的任意两个用户之间的相似度数值吗?
【问题讨论】:
有几种方法,您的数据是什么样的?是购买、观看或评分等交互数据吗?
如果是这样,itemsimilarity 或 spark-itemsimilarity 将起作用,但不会交换项目和用户 ID。如果您将数据编码为稀疏矩阵,每个用户一行,您还可以使用 rowsimilarity 或 spark-rowsimilarity。
对于 hadoop 作业,ID 必须是 Mahout ID,项目和用户的非零行号和列号。对于 Spark 作业,您可以使用所需的任何 ID——它们将被读取为文本,因此必须是唯一的字符串。
Pearson 仅受 hadoop 作业支持。 Spark 作业仅使用对数似然比。在协同过滤应用程序中,LLR 几乎总是优于其他“相似性”指标。
【讨论】: