【发布时间】:2017-12-28 12:35:41
【问题描述】:
我有以下类型的数据框
col1|col2|col3|col4
xxxx|yyyy|zzzz|[1111],[2222]
我希望我的输出遵循类型
col1|col2|col3|col4|col5
xxxx|yyyy|zzzz|1111|2222
我的 col4 是一个数组,我想将其转换为单独的列。需要做什么?
我看到很多关于 flatmap 的答案,但它们都在增加一行,我只想将元组放在另一列但在同一行中
以下是我的实际架构:
root
|-- PRIVATE_IP: string (nullable = true)
|-- PRIVATE_PORT: integer (nullable = true)
|-- DESTINATION_IP: string (nullable = true)
|-- DESTINATION_PORT: integer (nullable = true)
|-- collect_set(TIMESTAMP): array (nullable = true)
| |-- element: string (containsNull = true)
也可以请人帮我解释一下数据框和 RDD
【问题讨论】:
-
你的数据框的架构是什么?你能显示 df.printSchema() 吗?
-
嗨,我用我的实际架构编辑了这个问题
-
数组列中的所有单元格是否具有相同数量的元素?总是2?如果另一行在数组中有三个元素怎么办?
-
并非所有元素都恰好有 2 个元素。因为数组中的元素是开始日期和结束日期。
-
如果你能帮助我,这也是我的实际要求。 stackoverflow.com/questions/45252906/…
标签: python apache-spark pyspark rdd