【发布时间】:2015-05-13 22:12:33
【问题描述】:
我有一些看起来像这样的 txt 文件(它们包含 DNA 序列和示例代码):
>SRR1502445.1
GACTACACGTAGTATACGAGTGCGTTCCTGCGCTTATTGATATGCTTAAGTTCAGCGGGTAGTCTCACCCGATTTGAGGTCAAGGTTTGTGGGTCGAGTCACAACTCGAACATCGTCTTTGTACAAAGACGGTTGGAAGCGGGTTCCAAGGCAACACAGGGGGATAGGNNNNNNNNNNNNNNNNNNNNNNN
>SRR1502445.2
GACTACACGTAGTATACGAGTGCGTTCCTGCGCTTATTGATATGCTTAAGTTCAGCGGGTAGTCTCACCCGATTTGAGGTCAAGGTTTGTGGGTCGAGTCACAACTCGAACATCGTCTTTGTACAAGACGGTTGGAAGCGGGTTCCAAGGCACACAGGGGATAGGNNN
>SRR1502445.3
GACTACACGTAGTATACGAGTGCGTTCCTGCGCTTATTGATATGCTTAAGTTCAGCGGGTAGTCTCACCCGATTTGAGGTCAAGGTTTGTGGGTCGAGTCACAACTCGAACATCGTCTTTGTACAAAGACGGTTGGAAGCGGGTTCCAAGGCACACAGGGGATAGGNNN
>SRR1502445.4
GACTACACGTAGTATACGAGTGCGTTCCTGCGCTTATTGATATGCTTAAGTTCAGCGGGTAGTCTCACCCGATTTGAGGTCAAGGTTTGTGGGTCGAGTCACAACTCGAACATCGTCTTTGTACAAAGACGGTTGGAAGCGGGTTCCAAGGCACACAGGGGATAGGNNNNNNNNNNN
我想删除文件中每隔一行的前 15 个字符。这将从第二、第四、第六、第八行(等)中删除字符串GACTACACGTAGTAT。
例如 cut 命令可以删除每行的前 15 个字符:
cut -c 1-15 /path/to/file.txt
我想只申请每隔一行,从第二行开始。
【问题讨论】:
-
请发布您尝试过的代码,以及运行代码时会发生什么。
-
使用 Biopython 或 Bioperl 或 Biojava 或 BioETC 解析 falta,两行代码......
-
@JoseRicardoBustosM。我宁愿找到一个不涉及安装这些软件包之一的解决方案,因为可能有使用基本终端命令的解决方案。
-
你需要截断 fasta 和 qual 文件
-
@colin,请您解决 Jose Ricardo Bustos M. re: “在 FASTA 格式中的评论,它并不总是一行标题,然后一行序列...” 这适用于您的情况吗?因为如果是这样的话,任何被编码为显式跳过每一行的解决方案都可能失败!
标签: bash unix terminal bioinformatics qiime