【发布时间】:2020-07-05 18:33:31
【问题描述】:
请查看输入和预期输出,并建议我在 Pyspark 中处理它的有效方法。
输入:带有
的数据框C1 x y
11 a 1
12 a 2
13 b 5
14 b 6
16 c &b
17 c 7
18 c b
其中 C1 、 x 和 y 是列
预期输出:
C1 x y z
11 a 1 [1]
12 a 2 [2]
13 b 5 [5]
14 b 6 [6]
16 c &b [5,6]
17 c 7 [7]
18 c b [5,6]
'z' 是预期的列,它应该为 'c' 获取相应的 'b' 值
它应该为 'c' 的第 5 行中的 &b 和 b 获取 [5,6] 。
提前谢谢????
【问题讨论】: