【发布时间】:2018-02-24 21:23:39
【问题描述】:
我正在学习 Scala/Spark。 Scala 中很少有 groupby 操作导致下面的 rdd 。现在我正在尝试将以下内容写入 sql 数据帧并将其保存在 hadoop 中。但是,在将其写入 sql 数据帧时,它会转换为
示例 RDD 格式:
Array[((String, Double), (String, Double))] = Array(((Veterans Affairs Dept of,11669.0),(Veterans Affairs Dept of,101124.0)), ((Office Wisc Public Defender,40728.0),(Office Wisc Public Defender,40728.0)))
直接使用 .toDF 给出
| _1| _2|
+--------------------+--------------------+
|[Veterans Affairs...|[Veterans Affairs...|
|[Office Wisc Publ...|[Office Wisc Publ...|
|[Health Services,...|[Health Services,...|
我可以做些什么来获得如下所示格式的上述内容:
| _1| _2|_3|
+--------------------+--------------------+-----+
|[Veterans Affairs...|11669.0|101124|
|[Office Wisc Publ...|40728|40728|
【问题讨论】:
标签: scala