【问题标题】:Why does fastx_trimmer think that my fastq file is an unknown file format?为什么 fastx_trimmer 认为我的 fastq 文件是未知文件格式?
【发布时间】:2014-08-29 00:53:00
【问题描述】:

我有一些来自 Illumina NextSeq 运行的 .fastq 文件。许多序列具有使映射它们复杂化的poly-A束。我想删除所有十个连续 A 的序列,并且一直在尝试使用 fastx_clipper 这样做,如下所示:

ha1c6n8$ fastx_clipper -l 32 -Q33 -n -v -a AAAAAAAAAA –i FR0826_S1_L004_R1_001.fastq –o FR0826_L004_trimmed.fastq

这导致了以下错误消息:

fastx_clipper: input file (-) has unknown file format (not FASTA or FASTQ), first character = (10)

我不完全确定这意味着什么。我使用 head 查看了 fastq 文件:

ha5c6n8$ head FR0826_S1_L004_R1_001.fastq

@NS500289:18:H1237BGXX:4:11401:2791:1023 1:N:0:1
NCTACATTGGTTCCTCAGCCAAGCACATACACCAAATGTCTGAACCTGCGGTACCTCTCGTACTGAGCAGGATT
+
#<<AAFAFFFAFFFFF7FF)FF.F<FAFFFFF<FF.AFFF7F.F.FFAFFFF)7AF7F<FFF<<F7FFFFFF7F
@NS500289:18:H1237BGXX:4:11401:19266:1023 1:N:0:1
NAATGGGTCTGCGAGAGCGCCAGCTATCCTGAGGGAAACTTCGGAGGGGGCCGGCTACTAGATGGTTCGCTTAGT
+
#<7AAFAFFFFFFFF7FFAA.AFF<F...<AFFFF7F..FA.A<AA<F7)FA7.FF.<FA..F.A7AF..FFF.A
@NS500289:18:H1237BGXX:4:11401:6297:1023 1:N:0:1
NATAAGAGGGGTGTGGCTAGGCTAAGCGTTTTGAGCTGCATTGCTGCGTGCTTGATGCTTGTCCCTTTTGATCGT

据我所知,这看起来像是一个完全正常的 fastq 格式文件。谁能解释导致此错误的原因? 谢谢!

【问题讨论】:

  • 在我看来这个问题不太适合stackoverflow。如果我是你,我会通过使用 fastq 验证器检查你的 fastq 文件来开始调试,看看是否有警告和错误。您的文件可以例如被截断,我们从前几行看不到这一点。

标签: bioinformatics fasta sequencing fastq


【解决方案1】:

您的 fastq 文件以不允许的新行(ASCII 值 10)开头。删除第一行应该就OK了。

【讨论】:

    猜你喜欢
    • 2011-01-22
    • 2015-03-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多