【发布时间】:2021-04-20 08:19:38
【问题描述】:
我是 Spark 的新手。 我正在尝试建立一个推荐系统,为了获得隐式权重,我想计算用户订购产品的次数。我正在为此苦苦挣扎。
我有一张包含 user_id、product_id 和 weight 的表。这些 id 不是唯一的,我想计算 user_id 订购 product_id 的次数。
例如
来自:
USER_ID、PRODUCT_ID、WEIGHT
5、196、1
5、196、1
99623, 196, 1
99623, 196, 1
99623, 196, 1
99623, 200, 1
到:
USER_ID、PRODUCT_ID、WEIGHT
5、196、2
99623、196、3
99623, 200, 1
(我正在使用 pyspark)
这是我的数据框的屏幕截图 dataframe
【问题讨论】:
-
欢迎来到 SO,而不是屏幕截图,请考虑将您的实际代码粘贴到问题中。它会显示你的努力和你已经尝试过的东西。这将使发现问题更容易。尝试瞄准stackoverflow.com/help/minimal-reproducible-example。祝你好运!
标签: python dataframe apache-spark pyspark merge