【问题标题】:Running BLAST+ BLASTn with accession numbers from a list使用列表中的入藏号运行 BLAST+ BLASTn
【发布时间】:2018-07-29 21:49:19
【问题描述】:

我想使用 NCBI BLAST+ 对参考基因组进行 BLASTn 多个序列,并仅从 BLAST+ 输出中输出带有登录号、E 值和其他信息的行(因为 BLAST+ 输出中有几个无关的行) 到 csv。我有这些文件:

带有人类基因序列登录号的文本文件,每行一个:GSEA-toBLASTaccession.txt

参考基因组:botznik-chr.fa

输出 csv:GSEABLAST.csv

这是我为执行此操作而编写的代码:

for acc in `cat GSEA-toBLASTaccession.txt`; do
    echo $acc | blastn -db botznik-chr.fa -out GSEABLAST.out -num_alignments 1 \
    -outfmt "6 qacc evalue qstart qend sstart send bitscore score length pident \
    nident ppos positive mismatch gapopen" >> GSEABLAST.csv
done

我没有得到我需要的结果;我需要调整什么来获得带有入藏号、E 值、查询开始/结束、序列开始/结束、位核、分数、长度、身份 %/数字、正 %/数字、不匹配和间隙/的 CSV为我的入藏号列表中的每个基因打开它以获取 BLAST?

【问题讨论】:

    标签: bioinformatics blast


    【解决方案1】:

    你没有描述你得到的输出,所以它需要一些猜测来找出问题所在。我怀疑您希望所有序列的输出都在 GSEABLAST.csv 中,但是您只从 GSEABLAST.out 中的最后一个序列中获取输出

    如果这是问题所在,那是因为-out GSEABLAST.out 导致输出被发送到指定文件而不是 STDOUT。这个文件被for 循环的每次迭代覆盖。如果您删除该部分命令,输出将转到 STDOUT,然后附加到 GSEABLAST.csv

    【讨论】:

      猜你喜欢
      • 2011-01-18
      • 2016-11-10
      • 2017-04-17
      • 1970-01-01
      • 2011-01-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-01-27
      相关资源
      最近更新 更多