【发布时间】:2014-09-05 23:20:55
【问题描述】:
我有一个如下所示的文本文件:
MODIFIER|||c.72+1731G>T|SAMD11|protein_coding|CODING|NM_152486.2|2)
MODIFIER|||c.73-597G>A|SAMD11|protein_coding|CODING|NM_152486.2|2)
MODIFIER|||c.306-249T>C|SAMD11|protein_coding|CODING|NM_152486.2|4)
MODIFIER||2842||SAMD11|protein_coding|CODING|NM_152486.2|)
MODIFIER||4854||SAMD11|protein_coding|CODING|NM_152486.2|)
MODIFIER|||c.1443+808T>C|NOC2L|protein_coding|CODING|NM_015658.3|12)
LOW|||c.889C>G|NOC2L|protein_coding|CODING|NM_015658.3|8)
LOW|||c.889T>G|NOC2L|protein_coding|CODING|NM_015658.3|8)
MODIFIER||2687||KLHL17|protein_coding|CODING|NM_198317.2|)
MODIFIER||2885||NOC2L|protein_coding|CODING|NM_015658.3|)
我想提取 SAMD11、NOC2L 和 KLHL17 等名称。
如果这些以准确的模式出现,我会使用 tr as 分割文件
tr '|' '\t' 之后将提取包含此名称信息的列。
请帮忙。
谢谢。
【问题讨论】:
-
仅供参考,您的文件根本没有“混乱”;它只是用管道分隔,有些字段是空的。
-
写
I would have..- 那是错误的方法。