【发布时间】:2019-04-10 09:55:19
【问题描述】:
情况 我有 2 个 10k 行 x 140 列的 CSV,它们基本相同,需要识别差异。标题完全相同,行几乎相同(10K 中的 100 可能已更改)。
示例
文件1.csv
ID、名字、姓氏、电话 1、电话 2、电话 3 1,鲍勃,琼斯,5555555555,4444444444,3333333333 2,吉姆,希尔,2222222222,1111111111,0000000000
文件2.csv
ID,FirstName,LastName,Phone1,,Phone2,,Phone3
1,鲍勃,琼斯,5555555555,4444455444,3333333333
2,吉姆希尔,2222222222,1155111111,0005500000
3,金格兰特,2173659851,3214569874,3698521471输出文件.csv
ID、名字、姓氏、电话 1、电话 2、电话 3
1,鲍勃,琼斯,5555555555,4444444444,3333333333
2,吉姆,希尔,2222222222,1111111111,0005500000
3,金,格兰特,2173659851,3214569874,3698521471
我想我希望输出为 File2.csv,并以某种方式突出显示来自 File1.csv 的更改。我是 python 和 pandas 的新手,似乎不知道从哪里开始。我尽我所能在谷歌上搜索类似的东西来适应我的需要,但脚本似乎是针对具体情况的。
如果有人知道更简单/不同的方法,我会全神贯注。只要我不必逐条检查,我不在乎这是怎么发生的。
【问题讨论】:
-
是按顺序还是按 ID 列比较行? file1 和 file2 的列是否保证相同?
-
感谢您的回复!行按 ID 列进行比较,列将 100% 相同。
-
我已经发布了一个一般性的答案。您可以上传文件以便我更具体吗?