【发布时间】:2020-07-19 04:12:56
【问题描述】:
我有这个数据,如何使用 awk 删除第一个重复项 ($1$2$3)
785016 AGTCGCGTCCGT 142
785031 CGGCGTCGACTA 705
785031 CGGCGTCGACTA 705 CACTCCCCTGGAG
848841 GCTCAGTCAAAC 1595
848841 GCTCAGTCAAAC 1595 matched
848847 CAAATCGAGATC 1672
880844 TGCCGACGACAT 520
880844 TGCCGACGACAT 520 GTGTTCCGATCAG
880851 GACGACAACGTC 582
预期的输出是
785016 AGTCGCGTCCGT 142
785031 CGGCGTCGACTA 705 CACTCCCCTGGAG
848841 GCTCAGTCAAAC 1595 matched
848847 CAAATCGAGATC 1672
880844 TGCCGACGACAT 520 GTGTTCCGATCAG
880851 GACGACAACGTC 582
【问题讨论】:
-
你的例子不对,或者标题不对。该示例显示删除 3 个重复项,而不是第一个 - 输出中缺少 3 行输入。
-
此外,缺少的行是原始行,而不是重复行 - 保留重复行(例如第 3 行),但缺少 原始 行(分别为 2)。
-
在您的问题中,添加您为解决问题而尝试做的事情。
标签: awk duplicates