解压后的文件比 .gz 大得多 (60x)答案

【问题标题】：Files when unzipped are much larger (60x) than .gz解压后的文件比 .gz 大得多 (60x)
【发布时间】：2017-06-20 16:01:15
【问题描述】：

我从 1000genomes 网站下载了 1000 个基因组 .vcf 文件，使用：

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我尝试使用 gzip 解压缩这些文件，但它们解压缩到比原始文件大得多的大小。例如，第一个文件（1 号染色体）压缩后为 1.1gb，但扩展为 65.78gb。

认为这可能是 gzip 的问题，我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff，另一种是使用zcat解压文件。然而，在这两种情况下，文件大小都同样巨大。

我假设这是不对的，但不知道为什么会这样。有没有人经历过类似的事情？

【问题讨论】：

Mmmmm...我认为compressed 文件的大小显然比原始uncompressed 文件要小...我不认为这是一个异常，其实，很正常，至少在这个领域……
您从哪里获得原始文件大小的？ FTP 站点似乎只提供压缩版本。检查文件的开始和结束；它看起来正确吗？
我知道压缩后的文件会更小，但大小可能会减少这么多吗？文件的开头和结尾看起来应该是这样。
是的，对于像文本这样的文件，可以获得该压缩率

【解决方案1】：

我检查了 1 号染色体文件，没问题。我想其余的也是。是的，高度冗余的数据可以压缩那么多。它仅以 60:1 压缩，而 gzip 能够压缩高达 1032:1。

流被分解成单独的 gzip 压缩的 64K 未压缩数据片段，每个片段用于索引。（相关的“tbi”文件包含大 gzip 文件中每个片段的位置。）如果他们只是将其压缩为单个流，或者索引点相距更远一点，它会压缩大约 68:1。

【讨论】：