【发布时间】:2019-09-04 07:24:38
【问题描述】:
我有两个分区级别为 2 的数据帧。数据帧很小,每个大约 100 行。
df1:
col1 columnindex
null 1
null 2
null 3
null 4
100 5
101 6
102 7
103 8
104 9
105 10
df2:
col2 columnindex
100 1
200 2
null 3
null 4
100 5
101 6
null 7
103 8
null 9
105 10
我的最终 df 将是基于 columnindex 的 df1 和 df2 的连接。
col1 col2 columnindex
null 100 1
null 200 2
null null 3
null null 4
100 100 5
101 101 6
102 null 7
103 103 8
104 null 9
105 105 10
但是当我按照下面的方式加入两个数据框时,它看起来正在洗牌并给我不正确的结果。有什么办法可以避免洗牌。
df1.join(df2, df1.columnindex == df2.columnindex, 'inner')
【问题讨论】:
-
感谢您的提问。你能通过复制粘贴提供一些“假”数据吗?
标签: python python-3.x pyspark