【问题标题】:TopHat could not find bowtie index files even though path is correct即使路径正确,TopHat 也找不到蝴蝶结索引文件
【发布时间】:2014-10-05 22:02:03
【问题描述】:

我在 bash 脚本中使用 bowtie-index 生成了 bowtie 索引文件,如下所示:

bowtie-build $FA_FILE $OUTPUT_BASE

(脚本可以在这里找到:https://github.com/kennethphough/bioinformatics/blob/master/sge/sge_build_index

我希望集群的每个节点都将我的序列文件与一条染色体而不是整个基因组对齐。所以理论上,如果我为每个节点上的相同序列文件为每个染色体运行一个 tophat 实例,它应该比在一个节点上为整个基因组运行 tophat 更快。

我确保我的领结索引文件的位置是这样导出的:

export BOWTIE_INDEXES="$(dirname ${EBWT})/"

然后像这样执行tophat:

tophat -p 4 -G $GTF -o $OBASE $Chr $FASTQ

$GTF 包含注释文件的路径,$Chr 包含索引文件的文件名(不包括文件扩展名 .ebwt),$FASTQ 包含我的序列读取文件的路径。

(脚本可以在这里找到:https://github.com/kennethphough/bioinformatics/blob/master/sge/sge_tophat

当我运行脚本时,我收到一条错误消息,提示无法找到 bowtie 索引。摘录如下:

[Sun Oct  5 15:08:48 2014] Beginning TopHat run (v1.1.2)
-----------------------------------------------
[Sun Oct  5 15:08:48 2014] Preparing output location /home/kennethphough/GSE58365/fast/chr11_gl000202_random.1/
[Sun Oct  5 15:08:48 2014] Checking for Bowtie index files
Error: Could not find Bowtie index files /home/kennethphough/genome/hg19/chr11_gl000202_random.1.*

与上述错误相关的蝴蝶结索引文件是chr11_gl000202_random.1.ebwt,我已经确认它在那里。我们将不胜感激任何有关出现问题的线索。

领结版本是 0.12.7 Tophat 版本是 1.1.2

【问题讨论】:

  • 您问题中的链接已失效,因此对其他用户无用。
  • 很高兴您解决了您的问题,但您应该考虑获取这些软件的最新版本...(即 bowtie 最高为 1.1.1,tophat 最高为 2.0.13)跨度>
  • 感谢您的建议。我会询问我的管理员是否可以更新程序。

标签: bash bioinformatics sungridengine


【解决方案1】:

问题在于蝴蝶结索引有多个文件。所以对于上面的例子chr11_gl000202_random 有:

chr11_gl000202_random.1.ebwt
chr11_gl000202_random.2.ebwt
chr11_gl000202_random.3.ebwt
chr11_gl000202_random.rev.1.ebwt
chr11_gl000202_random.rev.1.ebwt

所以我需要像这样获取染色体序列名称,而不是传递没有扩展名的文件名:

Chr=`echo "$FNAME" | awk -F. '{print $1}'`

我已在 github 上更新了我的脚本以反映更改。

【讨论】:

    猜你喜欢
    • 2013-07-16
    • 2017-05-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-19
    • 2022-10-25
    • 2013-12-01
    • 2021-08-13
    相关资源
    最近更新 更多