【发布时间】:2015-12-19 03:31:49
【问题描述】:
我有许多 .nexus 文件,我想将它们转换为 FASTA 样式格式并合并为一个 .fasta 文件。这是一个示例代码:
for i in *.nexus;
do
awk 'NR >5' /path/to/nexus_files/$i | tr -d "'" | tr " " "\n" | sed 's/locus/>locus/g' > /path/to/fasta/${i}.fasta
done
这适用于第一个 nexus 文件,但 #NEXUS 标头仍保留在后续转换中。
输入:
#NEXUS
begin data;
dimensions ntax=1 nchar=300;
format datatype=dna missing=? gap=-;
matrix
'locus1_individual-1'
???????????????????????????????TAGATTTTTTAGTCCTTAC
;
end;
期望的输出:
>locus1_individual-1
???????????????????????????????TAGATTTTTTAGTCCTTAC
【问题讨论】:
-
我看不出它只适用于第一个文件的原因。您确定第二个文件没有双标头或某些前导 cmets 或类似文件吗?
-
seqmagick工具可能更灵活地进行转换,如下所述:biostars.org/p/79506/#98628 -
您没有显示“组合”命令。
标签: shell awk type-conversion fasta