【发布时间】:2018-08-24 13:08:00
【问题描述】:
我正在寻找以下问题的解决方案。我在第一列geneIDs 和第二个单独的GOterms 中有一个文本文件。因为每个基因都有多个带注释的 GOterm,相同的geneID 确实会出现多次(第二列中有不同的 GOterm。我只想将唯一的geneID 与 GOterm 合并: 我有:
TRINITY_DN10151_c0_g1 GO:0004175
TRINITY_DN10151_c0_g1 GO:0004252
TRINITY_DN10151_c0_g1 GO:0006508
TRINITY_DN10151_c0_g1 GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198
TRINITY_DN102626_c42_g1 GO:0042302
TRINITY_DN102626_c58_g1 GO:0004175
我想要:
TRINITY_DN10151_c0_g1 GO:0004175-GO:0004252-GO:0006508-GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198-GO:0042302
等等。
此外,每个 GO 术语组合出现一次很重要(我真的不知道如何解决这个问题)。因此,如果两个基因在第 2 列中具有相同的 GO 术语组合(A、B 和 C),则它们都应该具有 A-B-C。而且不是 A-C-B..
我曾尝试使用 sort 和 uniq,但最后我只是删除了行。
有人可以帮我提供一个 unix 解决方案吗?
【问题讨论】:
-
我注意到我的文本格式发生了变化。因此,在我的每一行文件中,我现在有一个带有单个 GO 术语的单个基因 ID:TRINITY_DN10151_c0_g1 GO:0004175 但我希望合并所有具有相似基因 ID 的 GOterm。类似的 GOterm 组合只有一个 GOterm 组合顺序。
-
c58发生了什么?您是否删除了不与任何其他输入行组合的输入行?