【发布时间】:2012-01-06 04:53:23
【问题描述】:
我有一个要删除的包含重复记录的文件。这是我尝试过的
import sys
for line in sys.stdin:
line = line.rstrip()
line = line.split()
idlist = []
if idlist == []:
idlist = line[1]
else:
idlist.append(line[1])
print line[0], idlist
#没用
还有这个
for line in sys.stdin:
line = line.rstrip()
line = line.split()
lines_seen = set()
dup = line[1]
if dup not in lines_seen:
lines_seen = dup
else:
lines_seen.append(dup)
print line[0], lines_seen
sys.stdin.close()
#也不起作用!
这就是输入的样子
BLE 1234
BLE 1223
LLE 3456
ELE 1223
BLE 4444
ELE 5555
BLE 4444
这就是我希望输出的样子
BLE 1234
BLE 1223
LLE 3456
BLE 4444
ELE 5555
谢谢! 边缘
【问题讨论】:
-
您认为什么是“重复记录”?
-
为什么“BLE 1223”不在您想要的输出中?为什么“LLE 3456”和“ELE 1223”的顺序在所需输出中颠倒了?
-
重复记录在此示例中,我重点关注第二列,即“1223”和“4444”。
标签: python