【发布时间】:2021-02-17 15:25:01
【问题描述】:
使用 Pyspark,我正在尝试使用 RDD 根据该 RDD 的内容进行聚合。
我的 RDD 目前看起来像(显然有更多数据):
[([u'User1', u'2'], 1), ([u'User2', u'2'], 1), ([u'User1', u'3'], 1)]
我想把它聚合成格式:
User1 5
User2 2
我正在努力与 RDD 进行交互,特别是 RDD 中的列表以获取这些数据。我还希望将其保留为 RDD,而不是将其转换为数据框。
谁能告诉我怎么做?
【问题讨论】:
标签: apache-spark pyspark rdd