【发布时间】:2020-05-26 01:30:03
【问题描述】:
我一直在使用 Python 本地处理一些数据集,现在正尝试使用 SQL 在云环境中复制相同的结果。
我有 3 个表,每个表都有多个重复的 ID。例如,表 A 将包含 ID a, b, c, d, ...,表 B 将包含 ID a, c, e, a1, a2 ...,表 C 将包含 ID d, f, a2, b1, b2, ...
我目前正在为 ID a 上的表 A 和表 B 和表 C 执行 pd.merge,并在 ID a2 上使用第一次合并的结果表。在使用 pd.merge 时,我注意到它会在重复的 ID 中添加 _x 或 _y(我的意思是在表 A 和表 B 的第一个 pd.merge 中,表 A 中的 c将变为 c_x,而表 B 中的 c 将变为 c_y,对于任何其他重复 ID,依此类推。对于任何连接,这同样适用于任何其他重复 ID。
我如何能够复制此过程并绕过 SQL 中重复 ID 的问题?
【问题讨论】:
-
您能否发布一些代码来显示您现在如何合并数据以及您希望结果如何?不清楚您希望如何处理重复的行和列。
标签: python sql pandas join select