【发布时间】:2016-06-20 09:49:53
【问题描述】:
这个数据框工作的基本 RDD 是用索引压缩的。我想将此原始数据帧拆分为多个数据帧,其中分隔符基于第一列字符串(例如,在这种情况下为“GCKN”)。
我假设如果我得到单独的数据帧,我也可以组合其他值,例如 this..
A F G
GCKN:GCKN_cppr0/in:GCKN_cppr0/out:GCKN_cppr15/in.. -71 531
这可能吗。最好的方法是什么?
【问题讨论】:
-
这里可以使用spark聚合函数吗?我仍在弄清楚语义。如果有人尝试过,请告诉我。
标签: apache-spark dataframe apache-spark-sql rdd spark-dataframe