【发布时间】:2020-03-23 05:04:27
【问题描述】:
我有两个几乎相同的 Pyspark 数据框:相同的行数和 row_id,相同的架构,但每行的某些列的值不同。
我想确定每一行的那些列。
例子:
数据框 A
id fname lname email
1 Michael Jackson mj@yahoo.com
2 Roger Moore rm@rocketmail.com
3 Angela Merkel am@dw.de
数据框 B
id fname lname email
1 Michael Jordan mj@yahoo.com
2 Gordon Moore rm@rocketmail.com
3 Angela Markle am@dw.com
预期的输出是字典列表:
[
{"1": ["lname"]},
{"2": ["fname"] },
{"3": ["lname", "email"] }
]
【问题讨论】:
标签: python pyspark apache-spark-sql pyspark-sql