【发布时间】:2021-11-27 02:21:06
【问题描述】:
假设我有一列这样的数组:
column_x
[1,5,[],[2,3,22,42,3,-5]]
[1,5,[],[-3,67,32,2,2.14,5]]
[1,5,[],[32,1,3,34,6.7,90]]
我想在每一行中提取数组的第四个元素,并将这些元素分成不同的列,如下所示:
column1 column2 column3 column4 column5 column6
2 3 22 42 3 -5
-3 67 32 2 2.14 5
32 1 3 34 6.7 90
我尝试使用 getItem() 函数,但它不起作用。我不完全确定我是否正确使用它。
【问题讨论】:
-
你的数据架构是什么?
-
root |-- scaledFeatures: 向量 (nullable = true)
-
对于稀疏向量,您需要 UDF 来访问值,以 this answer 为例
标签: arrays dataframe pyspark split