【发布时间】:2017-09-29 07:11:01
【问题描述】:
我的数据集是这样的购买历史记录:
+---+-----------+---------+
|usn| page_id| click|
+---+-----------+---------+
| 11| 9000001012| 10|
|169| 2010008901| 100|
|169| 9000001007| 4|
|169| 2010788901| 1|
|169| 8750001007| 4|
|169| 9003601012| 10|
|169| 9000001007| 4|
|613| 9000050601| 8|
|613| 9000011875| 3|
|613| 2010010401| 6|
|613| 9000001007| 4|
|613| 2010008801| 1|
|836| 9000050601| 20|
|916| 9000050601| 10|
|916| 9000562601| 30|
|916| 9000001007| 4|
|916| 9000001012| 10|
+---+-----------+---------+
我已阅读 Spark (http://spark.apache.org/docs/latest/ml-collaborative-filtering.html) 中的文档,但我不知道如何在此问题中使用 Collaborative Filtering for Implicit Preference。
现在我想将 ALS 应用于此数据集的隐式偏好。 怎么做?我可以将此数据集应用于显式数据吗?
请帮我使用它,如果有的话,请给我一个关于隐式偏好的示例代码 python
【问题讨论】:
-
你在哪里卡住了?
-
我是否假设 click 为评级?我可以将此数据集用于模拟 ALS 吗?那是真实的?我需要这方面的例子: als = ALS(maxIter=5, regParam=0.01,implicitPrefs=True, userCol="userId", itemCol="movieId", ratingCol="rating") with implicitPrefs=True
-
是的,它们充当评级。只需将 args 替换为数据集的正确名称即可。如果结果不理想,您可以尝试对点击进行标准化。
-
那么,你能给我关于隐式反馈的示例代码python
-
为什么需要一个例子?您已经有了代码,只需运行它,看看它是否有效。
标签: python apache-spark pyspark recommendation-engine collaborative-filtering