【发布时间】:2018-07-29 21:49:19
【问题描述】:
我想使用 NCBI BLAST+ 对参考基因组进行 BLASTn 多个序列,并仅从 BLAST+ 输出中输出带有登录号、E 值和其他信息的行(因为 BLAST+ 输出中有几个无关的行) 到 csv。我有这些文件:
带有人类基因序列登录号的文本文件,每行一个:GSEA-toBLASTaccession.txt
参考基因组:botznik-chr.fa
输出 csv:GSEABLAST.csv
这是我为执行此操作而编写的代码:
for acc in `cat GSEA-toBLASTaccession.txt`; do
echo $acc | blastn -db botznik-chr.fa -out GSEABLAST.out -num_alignments 1 \
-outfmt "6 qacc evalue qstart qend sstart send bitscore score length pident \
nident ppos positive mismatch gapopen" >> GSEABLAST.csv
done
我没有得到我需要的结果;我需要调整什么来获得带有入藏号、E 值、查询开始/结束、序列开始/结束、位核、分数、长度、身份 %/数字、正 %/数字、不匹配和间隙/的 CSV为我的入藏号列表中的每个基因打开它以获取 BLAST?
【问题讨论】:
标签: bioinformatics blast