【发布时间】:2019-01-11 16:22:16
【问题描述】:
我有多个从 NCBI 下载的 fasta 文件,想用标题的某些部分重命名它们:
标头示例:>KY705281.1 Streptococcus phage P7955, complete genome
文件名示例:KY705281.fasta
这个想法是去掉'KY705281.1'和'complete genome',这样就只剩下链球菌噬菌体P7955了
例如,一个输入文件将是:
>KY705281.1 Streptococcus phage P7955, complete genome
AGAAAGAAAAGACGGCTCATTTGTGGGTTGTCTTTTTTTGATTAAGTAATGAAGGAGGTGGATGTATTGG GCTAAATCAACGACAAAAACGATTTGCAGACGAATATTTGATATCTGGTGTCGCTTACAATGCAGCTATC AAAGCTGGGTATTCTGAGAAATACGCTAGAGCAAGAAGTCATACCTTGTTGGAAAATGTCGGCAT
它将被重命名为KY705281.fasta,内容如下:
>Streptococcus phage P7955
AGAAAGAAAAGACGGCTCATTTGTGGGTTGTCTTTTTTTGATTAAGTAATGAAGGAGGTGGATGTATTGG GCTAAATCAACGACAAAAACGATTTGCAGACGAATATTTGATATCTGGTGTCGCTTACAATGCAGCTATC AAAGCTGGGTATTCTGAGAAATACGCTAGAGCAAGAAGTCATACCTTGTTGGAAAATGTCGGCAT
我是 Linux 新手,但不知何故通过一些 Google 搜索,我知道这可以通过一些 awk/sed/grep 命令轻松完成。
任何建议将不胜感激
【问题讨论】:
-
不清楚,请在您的帖子中使用代码标签清楚地提及输入和预期输出示例。
-
如果您将文件重命名为第一行的第一个空格和第一个逗号之间的任何内容,是否正确?
-
是的,也更改标题并获得与文件相同的名称。我认为使用文件重命名第一个空格和第一个逗号之间的任何内容都可以。
-
@ RavinderSingh13例如 '> KY705281.1链球菌噬菌体P7955,完整基因组AGAAAGAAAAGACGGCTCATTTGTGGGTTGTCTTTTTTTGATTAAGTAATGAAGGAGGTGGATGTATTGG GCTAAATCAACGACAAAAACGATTTGCAGACGAATATTTGATATCTGGTGTCGCTTACAATGCAGCTATC AAAGCTGGGTATTCTGAGAAATACGCTAGAGCAAGAAGTCATACCTTGTTGGAAAATGTCGGCAT' 作为输入,并且 '>链球菌噬菌体P7955 AGAAAGAAAAGACGGCTCATTTGTGGGTTGTCTTTTTTTGATTAAGTAATGAAGGAGGTGGATGTATTGG GCTAAATCAACGACAAAAACGATTTGCAGACGAATATTTGATATCTGGTGTCGCTTACAATGCAGCTATC AAAGCTGGGTATTCTGAGAAATACGCTAGAGCAAGAAGTCATACCTTGTTGGAAAATGTCGGCAT' 作为输出预期跨度>
-
@FiestaJ 最好将此描述放在问题中并更好地格式化。我认为像这样的文件内容最好放在
{}代码块格式下。