【发布时间】:2019-04-17 12:54:13
【问题描述】:
我有两个 pyspark 数据框:
| A | B | C |
| 21 | 999 | 1000|
| 22 | 786 | 1978|
| 23 | 345 | 1563|
和
| A | D | E |
| 21 | aaa | a12 |
| 22 | bbb | b43 |
| 23 | ccc | h67 |
想要的结果:
| A | B | C | E |
| 21 | 999 | 1000| a12 |
| 22 | 786 | 1978| b43 |
| 23 | 345 | 1563| h67 |
我尝试使用join,甚至df1.join(df2.E, df1.A == df2.A)都无济于事。
【问题讨论】:
-
df1.join(df2, "A").select("A", "B", "C", "E")
标签: python apache-spark pyspark pyspark-sql