【发布时间】:2014-10-29 14:03:01
【问题描述】:
我想计算哪些用户查看哪个类别的频率。我是 Spark 和 Python 的新手。这是演示数据:
dataSource = sc.parallelize( [("user1", "film"), ("user1", "film"), ("user2", "film"), ("user2", "books"), ("user2", "books")] )
我按关键用户减少了这个并收集了所有类别。然后我分头数到以后:
dataReduced = dataSource.reduceByKey(lambda x,y : x + "," + y)
catSplitted = dataReduced.map(lambda (user,values) : (values.split(","),user))
每个用户的输出格式如下 -> ([cat1,cat1,cat2,catn], user)
谁能告诉我如何用 Spark 和 Python 计算类别,或者你有其他方法来解决这个问题吗?
【问题讨论】:
标签: python apache-spark