【发布时间】:2020-06-15 14:31:05
【问题描述】:
df1 = spark.createDataFrame([(1,[4,2]),(4,[3,2])], [ "col2","col4"])
+----+------+
|col2| col4|
+----+------+
| 1 |[4, 2]|
| 4|[3, 2]|
+----+------+
df = spark.createDataFrame([("a",1,10), ("a",2,20), ("a",3,30),
("b",4,40),("b",5,40),("b",1,40)], ["col1", "col2", "col3"])
+----+----+----+
|col1|col2|col3|
+----+----+----+
| a| 1| 10|
| a| 2| 20|
| a| 3| 30|
| b| 4| 40|
| b| 5| 40|
| b| 1| 40|
+----+----+----+
根据 col2 加入 df 和 df1,如果匹配,则检查 col4 isin col2 group by col1。 我期待输出,有人可以告诉我如何自行加入 pyspark(检查 col4 isin col2 group by col1)。
预期输出
col1 col2 col3
a 1 10
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql