【发布时间】:2016-09-28 08:45:58
【问题描述】:
我想为 TopGO R 包解析 InterProScan 结果。
我想要一个格式与我所拥有的文件有点距离的文件。
# input file (gene_ID GO_ID1, GO_ID2, GO_ID3, ....)
Q97R95 GO:0004349, GO:0005737, GO:0006561
Q97R95 GO:0004349, GO:0006561
Q97R95 GO:0005737, GO:0006561
Q97R95 GO:0006561
# desired output (removed duplicates and rows collapsed)
Q97R95 GO:0004349,GO:0005737,GO:0006561
您可以在此处使用整个数据文件测试您的工具:
https://drive.google.com/file/d/0B8-ZAuZe8jldMHRsbGgtZmVlZVU/view?usp=sharing
【问题讨论】:
-
您编辑了您的问题,删除了标签 perl、shell 和 awk。你的意思是?这些答案将不再被接受还是什么?
-
接受任何语言
-
我们能否相信在输入中具有相同第一列的所有行都将彼此相邻(就像它们在您的示例中一样)?这让代码更有效率。
-
问题仍未解决。 Kent 脚本与正确结果有少许偏差。只用一个 GO 术语就忘记了基因,除了重复的行。在上面的例子中,忘记了 'Q97R95 GO:0006561' 行,但结果仍然很好,因为 GO 术语 '0006561' 也在基因 'Q97R95' 的其他行中。
-
是的@hobbs,我之前可以对输入文件进行排序。事实上,我给的大文件是排序的。
标签: python perl awk text-processing