Python：Inflate 和 Deflate 实现答案

【问题标题】：Python: Inflate and Deflate implementationsPython：Inflate 和 Deflate 实现
【发布时间】：2010-11-08 13:08:04
【问题描述】：

我正在与一个服务器连接，该服务器需要使用 Deflate 算法（霍夫曼编码 + LZ77）压缩发送给它的数据，并且还发送我需要 Inflate 的数据.

我知道 Python 包含 Zlib，并且 Zlib 中的 C 库支持对 Inflate 和 Deflate 的调用，但这些显然不是由 Python Zlib 模块提供的。它确实提供了 Compress 和 Decompress，但是当我拨打如下电话时：

result_data = zlib.decompress( base64_decoded_compressed_string )

我收到以下错误：

Error -3 while decompressing data: incorrect header check

Gzip 也好不到哪里去；拨打电话时，例如：

result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()

我收到错误：

IOError: Not a gzipped file

这是有道理的，因为数据是 Deflated 文件而不是真正的 Gzipped 文件。

现在我知道有一个 Deflate 实现可用（Pyflate），但我不知道 Inflate 实现。

好像有几个选择：

在 Python 中找到 Inflate 和 Deflate 的现有实现（理想）
将我自己的 Python 扩展写入 zlib c 库，包括 Inflate 和 Deflate
调用可以从命令行执行的其他内容（例如 Ruby 脚本，因为 zlib 中的 Inflate/Deflate 调用完全包含在 Ruby 中）李>
?

我正在寻找解决方案，但如果缺乏解决方案，我会感谢您的见解、建设性意见和想法。

其他信息：出于我需要的目的，对字符串进行压缩（和编码）的结果应该与以下 C# 代码的 sn-p 给出相同的结果，其中输入参数是对应于要压缩的数据的 UTF 字节数组：

public static string DeflateAndEncodeBase64(byte[] data)
{
    if (null == data || data.Length < 1) return null;
    string compressedBase64 = "";

    //write into a new memory stream wrapped by a deflate stream
    using (MemoryStream ms = new MemoryStream())
    {
        using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
        {
            //write byte buffer into memorystream
            deflateStream.Write(data, 0, data.Length);
            deflateStream.Close();

            //rewind memory stream and write to base 64 string
            byte[] compressedBytes = new byte[ms.Length];
            ms.Seek(0, SeekOrigin.Begin);
            ms.Read(compressedBytes, 0, (int)ms.Length);
            compressedBase64 = Convert.ToBase64String(compressedBytes);
        }
    }
    return compressedBase64;
}

为字符串“deflate and encode me”运行这个 .NET 代码会得到结果

7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==

当“deflate and encode me”通过 Python Zlib.compress() 运行然后 base64 编码时，结果是“eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k=”。

很明显，zlib.compress() 不是与标准 Deflate 算法相同的算法的实现。

更多信息：

.NET deflate 数据（“7b0HY...”）的前 2 个字节，经过 b64 解码后为 0xEDBD，不对应 Gzip 数据（0x1f8b）、BZip2（0x425A）数据或 Zlib（0x789C）数据。

Python 压缩数据（“eJxLS...”）的前 2 个字节，经过 b64 解码后为 0x789C。这是一个 Zlib 头文件。

已解决

要处理没有标头和校验和的原始 deflate 和 inflate，需要进行以下操作：

在放气/压缩时：去除前两个字节（标头）和后四个字节（校验和）。

在膨胀/解压缩时：窗口大小有第二个参数。如果此值为负数，它将抑制标头。这是我目前的方法，包括 base64 编码/解码 - 并且工作正常：

import zlib
import base64

def decode_base64_and_inflate( b64string ):
    decoded_data = base64.b64decode( b64string )
    return zlib.decompress( decoded_data , -15)

def deflate_and_base64_encode( string_val ):
    zlibbed_str = zlib.compress( string_val )
    compressed_string = zlibbed_str[2:-4]
    return base64.b64encode( compressed_string )

【问题讨论】：

标签： c# python compression zlib

【解决方案1】：

您仍然可以使用zlib 模块来膨胀/缩小数据。 gzip 模块在内部使用它，但添加了一个文件头以使其成为 gzip 文件。查看gzip.py 文件，这样的事情可能会起作用：

import zlib

def deflate(data, compresslevel=9):
    compress = zlib.compressobj(
            compresslevel,        # level: 0-9
            zlib.DEFLATED,        # method: must be DEFLATED
            -zlib.MAX_WBITS,      # window size in bits:
                                  #   -15..-8: negate, suppress header
                                  #   8..15: normal
                                  #   16..30: subtract 16, gzip header
            zlib.DEF_MEM_LEVEL,   # mem level: 1..8/9
            0                     # strategy:
                                  #   0 = Z_DEFAULT_STRATEGY
                                  #   1 = Z_FILTERED
                                  #   2 = Z_HUFFMAN_ONLY
                                  #   3 = Z_RLE
                                  #   4 = Z_FIXED
    )
    deflated = compress.compress(data)
    deflated += compress.flush()
    return deflated

def inflate(data):
    decompress = zlib.decompressobj(
            -zlib.MAX_WBITS  # see above
    )
    inflated = decompress.decompress(data)
    inflated += decompress.flush()
    return inflated

我不知道这是否完全符合您的服务器要求，但是这两个函数能够往返我尝试的任何数据。

参数直接映射到传递给 zlib 库函数的参数。

Python ⇒ C
zlib.compressobj(...) ⇒ deflateInit(...)
compressobj.compress(...) ⇒ deflate(...)
zlib.decompressobj(...) ⇒ inflateInit(...)
decompressobj.decompress(...) ⇒ inflate(...)

构造函数创建结构并使用默认值填充它，并将其传递给 init 函数。 compress/decompress 方法更新结构并将其传递给inflate/deflate。

【讨论】：

我正在寻找的是访问 Python Zlib 模块包装的库的 C 级 Inflate 和 Deflate 调用。看起来 Decompress 和 Compress 做的不是一样的，Python Zlib 模块没有暴露 Inflate 和 Deflate
这没用。请注意我在上面的问题中添加的附加信息。您在上面提供的代码，当使用字符串“deflate and encode me”运行时，会产生“S0lNy0ksSVVIzEtRSM1Lzk9JVchNBQA="，它甚至更短。正确的 Deflate 结果应该看起来像我上面提到的（更长的）.NET 生成的字符串。
21 个字符的输入字符串如何导致 212 字节的压缩输出？这是否包括放气文件头？
.NET 版本似乎使用了不同但兼容的算法。您可以尝试使用 .NET 解码来自 python deflate 的字符串吗？如果它有效，那么它们对相同的字符串进行不同的编码应该没有问题。
@Adam：212 字节？他的 base64 编码字符串长 160 字节，解码为 118 字节。也许您对其进行了编码（160 * 4 / 3 大约== 212）。压缩文件头？也许您的意思是 gzip 文件头 - 看起来不像其中之一 (gzip.org/zlib/rfc-gzip.html)：不以 0x1F 0x8B 开头（除非 C# 使用非默认 base64 字母表）。如果 Demi 提供 (1) 网站规范中提供的更多详细信息 (2) C# DeflateStream() 的参数文档，那就太好了

【解决方案2】：

这是 MizardX 答案的附加内容，提供了一些解释和背景。

见http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html

根据RFC 1950，默认构造的zlib流由以下部分组成：

一个 2 字节的标头（例如 0x78 0x9C）
放气流——见RFC 1951
未压缩数据的 Adler-32 校验和（4 个字节）

C# DeflateStream 在（你猜对了）一个 deflate 流上工作。 MizardX 的代码告诉 zlib 模块数据是原始的 deflate 流。

观察：（1）人们希望产生更长字符串的 C#“放气”方法只发生在短输入的情况下（2）使用没有 Adler-32 校验和的原始放气流？有点冒险，除非换成更好的东西。

更新

错误信息Block length does not match with its complement

如果您尝试使用 C# DeflateStream 对一些压缩数据进行膨胀并收到该消息，那么您很有可能给它一个 zlib 流，而不是一个 deflate 流。

见How do you use a DeflateStream on part of a file?

还将错误消息复制/粘贴到 Google 搜索中，您会得到很多点击（包括此答案前面的那个），说的差不多。

“网站”使用的 Java Deflater ... C# DeflateStream“非常简单，并且已经针对 Java 实现进行了测试”。该网站使用了以下哪些可能的 Java Deflater 构造函数？

public Deflater(int level, boolean nowrap)

使用指定的压缩级别创建一个新的压缩器。如果 'nowrap' 为真，则不会使用 ZLIB 标头和校验和字段，以支持 GZIP 和 PKZIP 中使用的压缩格式。

public Deflater(int level)

使用指定的压缩级别创建一个新的压缩器。压缩后的数据将以 ZLIB 格式生成。

public Deflater()

使用默认压缩级别创建一个新的压缩器。压缩后的数据将以 ZLIB 格式生成。

单行 deflater 在丢弃 2 字节 zlib 标头和 4 字节校验和后：

uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x

或

zlib.compress(uncompressed_string)[2:-4]

【讨论】：

@John Machin：回复您的第一个观察结果......结果只有在字符串较短的情况下才会更长（标题？填充？）。当我输入 161 字节的数据进行通缩时，在 base64 编码之前，结果是 126 字节。
@John Machin：很棒的见解和信息。使用的 deflater 的 Java 签名是带有两个参数的签名，nowrap==true。我使用了您的单行 deflater 示例，它在 .NET 和 Java 中膨胀得很好，尽管看起来与使用这些语言的库进行放气所产生的价值不同。这很棒。现在我正在处理 inflate——获取 Java 或 .NET 生成的压缩数据并添加 adler32 校验和和 zlib 标头，看看我是否可以让 Python 很好地使用它。我会告诉你进展如何。
@John Machin：已解决。往上看。谢谢你的协助。关键是将负值传递给 decompress 方法以进行膨胀，并在压缩时剪裁标题和 adler 校验和。