【发布时间】:2019-08-13 19:40:08
【问题描述】:
我有一个如下所示的 spark 数据框。如果在 col1 的其他行中找到 col2 中的值,我想在新列的列表中获取 col3 的值。而且我宁愿不使用自加入。
输入:
col1 col2 col3
A B 1
B C 2
B A 3
输出:
col1 col2 col3 col4
A B 1 [2,3]
B C 2 []
B A 3 [1]
【问题讨论】:
-
为什么要避免使用
join?这是执行此操作的惯用方式。请支持加入是expensive operation 的声明。相对于什么来说贵? -
相对于窗口操作。
-
@ pault... 我试图对 spark 数据框做同样的事情,但自加入在 col2&col1 上不起作用.. donnw 发生了什么。你能建议一下吗?谢谢
标签: python dataframe apache-spark pyspark