【发布时间】:2019-05-19 10:16:12
【问题描述】:
例如,我正在尝试根据姓名、年龄和国家/地区查找此集合中的重复值
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Paula' 78 Germany Retired
'Fred' 23 America Banker
'Fred' 22 America Student
'Fred' 23 Brazil Police Officer
'Bingo' 36 New Zealand Money
要找到我使用过的确切副本:
dupDF = df[df.duplicated(['NAME', 'AGE', 'COUNTRY'], keep=False)]
这会给我:
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Fred' 23 America Banker
我真正想要的是匹配姓名、年龄(+/-1)和国家,以便返回:
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Fred' 23 America Banker
'Fred' 22 America Student
我已尝试使用此处提供的解决方案:Detecting almost duplicate rows
但是我正在努力调整解决方案以接受非整数值。
我还尝试创建一个包含年龄 +/-1 的数组(如:https://stackoverflow.com/a/43160595/10816095),希望使用它来匹配,但我似乎无法将其附加到数据框。
我该怎么做?
【问题讨论】:
标签: python pandas duplicates