【发布时间】:2017-07-03 22:22:48
【问题描述】:
我有这个输入文本文件
1;2;29.02.2017;10.00-11.00;5;
1;2;29.02.2017;10.00-11.00;3;
1;3;02.02.2017;09.00-10.00;4;
1;3;03.02.2017;12.00-13.00;2;
1;3;28.02.2017;08.00-09.00;6;
1;3;29.02.2017;10.00-11.00;3;
1;3;29.02.2017;10.00-11.00;2;
1;3;29.02.2017;11.00-12.00;2;
1;3;29.02.2017;12.00-13.00;3;
10;11;28.02.2017;08.00-09.00;6;
10;11;28.02.2017;08.00-09.00;1;
10;12;02.02.2017;09.00-10.00;8;
10;12;28.02.2017;08.00-09.00;2;
10;12;28.02.2017;08.00-09.00;1;
用';'分隔的值如下面所述: 1- id_1(str), 2- id_2(str), 3- date(str), 4- time(str), 5- area(int)
作为输出,我需要一个包含输入行的文本文件,其中包含 1、2、3、4 个重复项和总面积。我需要删除没有重复的行,例如
1;2;29.02.2017;10.00-11.00;8; (sum of 5 from line 1 and 3 from line 2)
1;3;29.02.2017;10.00-11.00;5;
10;11;28.02.2017;08.00-09.00;7;
10;12;28.02.2017;08.00-09.00;3;
到目前为止,我所取得的成就是删除了没有重复的行,但我不得不删除 area 列。
我用过这个:
seen = set()
for line1 in imp:
line1_lower = line1.lower()
if line1_lower in seen:
print(line1)
else:
seen.add(line1_lower)
【问题讨论】:
标签: python-3.x loops pandas