【发布时间】:2019-07-15 16:17:34
【问题描述】:
我有一个如下所示的 Spark 数据框:
+------+-----+-----+
|acctId|vehId|count|
+------+-----+-----+
| 1| 666| 1|
| 1| 777| 3|
| 1| 888| 2|
| 1| 999| 3|
| 2| 777| 1|
| 2| 888| 3|
| 2| 999| 1|
| 3| 777| 4|
| 3| 888| 2|
+------+-----+-----+
我想将每个 acctId 的 vehId 映射到其计数,并将其存储回数据框中,因此最终结果如下所示:
+------+---------------------------------------------+
|acctId| map |
+------+---------------------------------------------+
| 1| Map(666 -> 1, 777 -> 3, 888 -> 2, 999 -> 3) |
| 2| Map(777 -> 1, 888 -> 3, 999 -> 1) |
| 3| Map(777 -> 4, 888 -> 2) |
+------+---------------------------------------------+
最好的方法是什么?
我尝试将数据框转换为 RDD 并在行上执行映射,但我不确定如何将每个映射聚合回单个 acctId。总的来说,我是 Spark 和数据帧的新手,但我已尽我所能尝试找到类似的问题——如果这是一个非常常见的问题,我深表歉意。
供您参考/使用,这是我生成测试数据的方式:
val testData = Seq(
(1, 999),
(1, 999),
(2, 999),
(1, 888),
(2, 888),
(3, 888),
(2, 888),
(2, 888),
(1, 888),
(1, 777),
(1, 666),
(3, 888),
(1, 777),
(3, 777),
(2, 777),
(3, 777),
(3, 777),
(1, 999),
(3, 777),
(1, 777)
).toDF("acctId", "vehId")
val grouped = testData.groupBy("acctId", "vehId").count
【问题讨论】:
标签: apache-spark apache-spark-sql