【发布时间】:2014-04-09 00:52:16
【问题描述】:
我有一个包含以下字符串的 .fa 文件:
NP_009339.1 NP_009339.1 glutamate dehydrogenase (NADP(+)) GDH3
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAXXX
XXBBBBBBBBBBBBBBBBBXXXXXBBBBBBBBBBBBBBBBBBBBBBBBBBBBBXXX XX
gi|10383797|ref|NP_009965.2| Rbk1p [Saccharomyces cerevisiae S288c]
AAAAAAAAAAAAAAAAAAAAAAAXXXXAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAXXX
XBBBBBBBBBBBBBBBBBBBXX XXBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
[请注意,在第一个序列的第一行末尾,XXXXX 拉伸由 return 分隔,第二行 XXXXX 由空格分隔,我也希望计算它们。] 任何人都可以帮我找到/打印此文件中存在的 XXXXX 段数并在 output.fa 上打印整个序列。用“chomp”来忽略/空白已经筋疲力尽了。
这是我的脚本:
#!/usr/bin/perl
use warnings;
use strict;
open my $fh , '<' , 'input.fa' or die 'Cannot open file';
my $Count_XXXXX=0;
while (<$fh>){
chomp;
$Count_XXXXX+=s/X{5}//g;
}
close $fh;
print "\nTotal no of repeats:".$Count_XXXXX."\n";
【问题讨论】:
标签: perl