【发布时间】:2018-07-18 19:48:11
【问题描述】:
下面的行分别是 Mango、Apple、Orange 列的数据框
[10,20,30]
[100,2000,300]
[1000,200,3000]
对于上述数据框:我需要得到一个类似的摘要
{Mango: 1110; Apple:2220; Orange:3330 }
我如何使用单次迭代来做到这一点?
【问题讨论】:
标签: scala apache-spark
下面的行分别是 Mango、Apple、Orange 列的数据框
[10,20,30]
[100,2000,300]
[1000,200,3000]
对于上述数据框:我需要得到一个类似的摘要
{Mango: 1110; Apple:2220; Orange:3330 }
我如何使用单次迭代来做到这一点?
【问题讨论】:
标签: scala apache-spark
如果你有一个简单的dataframe 如下
+-----+-----+------+
|Mango|Apple|Orange|
+-----+-----+------+
|10 |20 |30 |
|100 |200 |300 |
|1000 |2000 |3000 |
+-----+-----+------+
你可以做下面的事情
df.select(sum("Mango").as("Mango"), sum("Apple").as("Apple"), sum("Orange").as("Orange")).toJSON.rdd.foreach(println)
这会给你输出为
{"Mango":1110,"Apple":2220,"Orange":3330}
【讨论】: