【发布时间】:2020-03-25 12:03:21
【问题描述】:
我有两个 txt 文件:File1 是一个有 9 列的 tsv。以下是它的第一行(SRR6691737.359236/0_14228//11999_12313 是第一列,Repeat 之后是第 9 列):
SRR6691737.359236/0_14228//11999_12313 Censor repeat 5 264 1169 + . Repeat BOVA2 SINE 1 260 9
File2 是一个有 9 列的 tsv。以下是它的第一行(Read 之后是第 9 列):
CM011822.1 reefer discordance 63738705 63738727 . + . Read SRR6691737.359236 11999 12313; Dup 277
文件1包含读取名称(SRR6691737.359236)、读取长度(0_14228)和坐标(11999_12313)的信息,而文件2仅包含读取名称和坐标。文件1中的所有读取名称和坐标都存在于文件2中,但 file2 也可能包含具有不同坐标的相同读取名称。此外,file2 包含 file1 中不存在的读取名称。
我想编写一个脚本,在 file2 中找到与 file1 中的匹配的读取名称和坐标,并将读取长度从 file1 添加到 file2。即更改file2的最后一列:
Read SRR6691737.359236 11999 12313; Dup 277
到:
Read SRR6691737.359236/0_14228//11999_12313; Dup 277
有什么帮助吗?
【问题讨论】:
-
欢迎来到SO,不清楚。您能否提供输入样本和预期输出样本以及您的努力,然后让我们知道。
-
请发布您已经尝试过的内容
-
问题令人费解且不一致。请提供更多重复的样本输入和相应的输出。文件描述和字段分隔符与 TSV 文件不一致。请改进解释。
标签: bash awk replace grep find