【问题标题】:Files when unzipped are much larger (60x) than .gz解压后的文件比 .gz 大得多 (60x)
【发布时间】:2017-06-20 16:01:15
【问题描述】:

我从 1000genomes 网站下载了 1000 个基因组 .vcf 文件,使用:

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我尝试使用 gzip 解压缩这些文件,但它们解压缩到比原始文件大得多的大小。例如,第一个文件(1 号染色体)压缩后为 1.1gb,但扩展为 65.78gb。

认为这可能是 gzip 的问题,我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大。

我假设这是不对的,但不知道为什么会这样。有没有人经历过类似的事情?

【问题讨论】:

  • Mmmmm...我认为compressed 文件的大小显然比原始uncompressed 文件要小...我不认为这是一个异常,其实,很正常,至少在这个领域……
  • 您从哪里获得原始文件大小的? FTP 站点似乎只提供压缩版本。检查文件的开始和结束;它看起来正确吗?
  • 我知道压缩后的文件会更小,但大小可能会减少这么多吗?文件的开头和结尾看起来应该是这样。
  • 是的,对于像文本这样的文件,可以获得该压缩率

标签: compression gzip vcf-variant-call-format


【解决方案1】:

我检查了 1 号染色体文件,没问题。我想其余的也是。是的,高度冗余的数据可以压缩那么多。它仅以 60:1 压缩,而 gzip 能够压缩高达 1032:1。

流被分解成单独的 gzip 压缩的 64K 未压缩数据片段,每个片段用于索引。 (相关的“tbi”文件包含大 gzip 文件中每个片段的位置。)如果他们只是将其压缩为单个流,或者索引点相距更远一点,它会压缩大约 68:1。

【讨论】:

  • 感谢您的回答马克。事实证明,造成巨大差异的原因是大多数数据由等位基因表示组成:0|0 或 1|0,每列中没有其他信息。因此,大部分文件由长的 0|0 行组成。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-12-17
  • 1970-01-01
  • 2011-08-11
  • 1970-01-01
相关资源
最近更新 更多