【发布时间】:2019-04-16 19:25:11
【问题描述】:
从原始数据中,有重复数据。具有不同数据库的重复必须连接到前一个的后面。有没有办法通过数据之间的比较将两个表合并为一个,如下所示?
从使用 drop.duplicates 和 duplicated 的原始数据中,我得到了两个表并想使用字典来比较它们,但是通过将行作为两个表中的字典,每个字典中的键都是相同的,我不能将它们合并在一起。
这是给出的原始数据
DB TITLE ISSN IBSN
0 M a 1 NaN
1 M d 1 NaN
2 M c 1 NaN
3 N b 1 NaN
4 N a 1 NaN
5 N d 1 NaN
6 O c 1 NaN
7 O e 1 NaN
8 O a 1 NaN
9 O b 1 NaN
通过使用 drop_duplicates 和复制:
DB TITLE ISSN IBSN DB TITLE ISSN IBSN
0 M a 1 NaN 0 N a 1 NaN
1 M d 1 NaN 1 N d 1 NaN
2 M c 1 NaN 2 O c 1 NaN
3 N b 1 NaN 3 O a 1 NaN
4 O e 1 NaN 4 O b 1 NaN
这是我从行中得到的那种字典:
{'DB': 'N', 'TITLE': 'a', 'ISSN': 1, 'IBSN': 'NaN'}
{'DB': 'M', 'TITLE': 'a', 'ISSN': 1, 'IBSN': 'NaN'}
我希望输出是
DB TITLE ISSN IBSN DB TITLE ISSN ISBN DB TITLE ISSN IBSN
0 M a 1.0 NaN N a 1.0 NaN O a 1.0 NaN
1 N b 1.0 NaN O b 1.0 NaN NaN NaN NaN NaN
2 M d 1.0 NaN N d 1.0 NaN NaN NaN NaN NaN
3 M c 1.0 NaN O c 1.0 NaN NaN NaN NaN NaN
4 O e 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN
列中“TITLE”的顺序并不重要,但数据库必须按字母顺序从左到右排序。
【问题讨论】:
标签: python pandas dataframe dictionary