【发布时间】:2020-12-08 10:32:28
【问题描述】:
我正在尝试将两个 csv 文件与 pandas 进行比较并确定更改。 我的目标是识别新文件中存在但旧文件中不存在的新条目,忽略旧文件中的所有内容并且在新文件中不再可用。
- 一个旧文件
NAME;DESCRIPTION;LINK;PRICE;IMAGE
Item4;something;https://example.com;10;https://example.com/image.jpg
Item3;something;https://example.com;10;https://example.com/image.jpg
Item2;something;https://example.com;10;https://example.com/image.jpg
Item1;something;https://example.com;10;https://example.com/image.jpg
- 更新的文件
NAME;DESCRIPTION;LINK;PRICE;IMAGE
Item5;something;https://example.com;10;https://example.com/image.jpg
Item4;something;https://example.com;10;https://example.com/image.jpg
Item3;something;https://example.com;10;https://example.com/image.jpg
Item2;something;https://example.com;10;https://example.com/image.jpg
到目前为止,我已经确定了两个文件之间的任何更改,但不幸的是,它还显示新文件中不再存在 waht
import pandas as pd
a = pd.read_csv('csv/new.items.csv')
b = pd.read_csv('csv/old.items.csv')
c = pd.concat([a,b], axis=0)
c.drop_duplicates(keep=False, inplace=True)
c.reset_index(drop=True, inplace=False)
c.to_csv(r'csv/pd.items.csv', index=False, header=True)
预期结果应该是一个新文件,其中仅包含旧文件中未找到的新条目
NAME;DESCRIPTION;LINK;PRICE;IMAGE
Item5;something;https://example.com;10;https://example.com/image.jpg
多年来没有使用 python,所以不要对我太苛刻:)
【问题讨论】:
标签: python-3.x pandas csv