【发布时间】:2020-01-30 14:26:18
【问题描述】:
我想比较 list_id 列上的两个 df1 df2 数据帧:
df1 =
+---------+
| list_id|
+---------+
|[1, 2, 3]|
|[4, 5, 6]|
|[7, 8, 9]|
+---------+
df2 =
+------------+
| list_id|
+------------+
| [10, 3, 11]|
|[12, 13, 14]|
| [15, 6, 16]|
+------------+
想要的结果是:
df2 =
+-------------------+
| list_id|
+-------------------+
| [1, 2, 3, 10, 11] |
| [4, 5, 6, 15, 16] |
| [7, 8, 9] |
| [12, 13, 14] |
+-------------------+
我的目标是连接它们的交集不为空的列表,并使其他列表与 pyspark 保持原样。
注意:我的数据框非常大,不可能使用 Spark Sql 的连接。
【问题讨论】:
-
如果两个数据帧之间有多个匹配项怎么办?
-
到目前为止你尝试了什么?
-
我尝试使用列表列之间的交集函数进行完全连接,这会产生内存错误
-
7,8,9 ?.. 这有效吗?
-
什么版本的火花?
标签: python pyspark pyspark-dataframes