【问题标题】:How to check if a file is gzip compressed?如何检查文件是否经过 gzip 压缩?
【发布时间】:2011-08-28 21:27:28
【问题描述】:

我有一个 C / C++ 程序需要读取一个可能是也可能不是 gzip 压缩的文件。我知道我们可以使用 zlib 中的 gzread() 来读取压缩和未压缩的文件 - 但是,我只想在文件是 gzip 压缩的情况下使用 zlib 函数(出于性能原因)。

那么有没有办法以编程方式检测或检查某个文件是否是从 C/C++ 压缩的?

【问题讨论】:

  • @Rob Kennedy:未压缩文件有很大的不同——1 分钟(fread)和 20 分钟(gzread)。可能与我们使用旧版本的 zlib 有关,但现在我无法使用最新版本 - 所以必须进行条件读取。

标签: c++ c file-io gzip zlib


【解决方案1】:

文件开头有一个幻数。只需读取前两个字节并检查它们是否等于0x1f8b

【讨论】:

  • 注意字节顺序和字节宽度。比较单个值而不是复合值:(byte1 == 0x1f) && (byte2 == 0x8b)first2bytes == 0x1f8b
【解决方案2】:

您可以测试 RFC 1951 和 1952 中描述的签名以获得一个想法。对于 GZIP 文件,第二个是相关的并且是确定的。其他格式存在一些误报,因此您应该尽可能多地检查标题中的合理值。

对于 zlib 流,这有点困难,因为它们更容易出现误报。但你很少会独自在野外遇到那些。

【讨论】:

    【解决方案3】:

    使用 gzread() 读取压缩文件和未压缩文件的性能有何不同?

    无论如何,为了检测文件是否被gzip压缩,你可以读取文件开头的magic number,根据链接是1f 8b

    【讨论】:

    • 关于性能:存在巨大差异 - 未压缩文件的 1 分钟(fread)与 20 分钟(gzread)。可能与我们使用旧版本的 zlib 有关,但现在我无法使用最新版本 - 所以必须进行条件读取才能解决这个问题。
    【解决方案4】:

    您更喜欢误报、误报还是完全没有误报(性能下降...)?

    RFC 1952: GZIP file format specification version 4.3 表示文件的前 2 个字节(每个成员的)是 '\x1F''\x8B'。将其用于可能导致误报的第一次检查。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-12-06
      • 1970-01-01
      • 1970-01-01
      • 2015-04-20
      • 1970-01-01
      • 2014-04-10
      • 2017-02-01
      • 1970-01-01
      相关资源
      最近更新 更多