【发布时间】:2015-04-01 16:34:36
【问题描述】:
我正在尝试将 .txt 文件合并到数据的清理版本中。目前,该文件的结构如下:
IDENTIFIER: unique values
DATA ONE: more unique values
DATA TWO: more unique values
DATA TWO: more unique values
DATA TWO: more unique values
IDENTIFIER: unique values
DATA ONE: more unique values
DATA TWO: more unique values
DATA TWO: more unique values
IDENTIFIER:
等等,大约 500 个“标识符”。我想阅读这个文件,然后简单地删除重复的“DATA TWO:”s。虽然我熟悉如何简单地删除重复行,但我需要删除每个唯一部分的重复项,以产生:
IDENTIFIER: unique values
DATA ONE: more unique values
DATA TWO: more unique values
“DATA TWO:”的数量因标识符而异,通常是两个或三个。将“DATA TWO”中的哪一个打印到新文件中无关紧要;尽管每个措辞略有不同,但它们捕获了我我正在努力寻找,任何一个都足够了。
我对编程比较陌生,使用 Python 2.7.9。
【问题讨论】:
标签: python python-2.7 parsing duplicates extract