【发布时间】:2015-11-16 22:18:54
【问题描述】:
我之前遇到了障碍,试图在 Spark Dataframes 中进行一些转换。
假设我有一个架构数据框:
root
|-- coordinates: array (nullable = true)
| |-- element: double (containsNull = true)
|-- userid: string (nullable = true)
|-- pubuid: string (nullable = true)
我想摆脱坐标中的数组(双),而是得到一个看起来像行的 DF
"coordinates(0),coordinates(1)", userid, pubuid
or something like
coordinates(0), coordinates(1), userid, pubuid .
使用 Scala 我可以做到
coordinates.mkString(",")
但在 DataFrames 中,坐标解析为 java.util.List。
到目前为止,我通过读入 RDD、转换然后构建新的 DF 来解决这个问题。但我想知道是否有更优雅的方式来使用 Dataframes 来做到这一点。
感谢您的帮助。
【问题讨论】:
标签: arrays scala apache-spark dataframe apache-spark-sql