【发布时间】:2017-03-11 08:02:13
【问题描述】:
我在 pyspark 的购物平台上有一个 rdd 的用户活动数据:
user_id | product_id | 事件(查看产品、购买、添加到购物车等)
问题是相同的 (user_id, product_id) 元组可以有多种事件类型。我想在同一行收集所有此类事件。
例子:
╔═════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠═════════════════════════════════════════════════╣
║ 1 1 viewed ║
║ 1 1 purchased ║
║ 2 1 added ║
║ 2 2 viewed ║
║ 2 2 added ║
╚═════════════════════════════════════════════════╝
我想要:
╔════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠════════════════════════════════════════════════╣
║ 1 1 {viewed, purchased} ║
║ 2 1 {added} ║
║ 2 2 {viewed, added} ║
╚════════════════════════════════════════════════╝
【问题讨论】:
-
您是否考虑过使用内置的
map和groupByKey函数?
标签: python apache-spark mapreduce pyspark