首页 文章

Python:Inflate和Deflate实现

提问于
浏览
45

我正在与服务器接口,该服务器要求发送给它的数据使用Deflate算法(Huffman编码LZ77)压缩,并且还发送我需要的数据以进行Inflate .

我知道Python包含Zlib,并且Zlib中的C库支持对Inflate和Deflate的调用,但这些显然不是由Python Zlib模块提供的 . 它确实提供压缩和解压缩,但是当我拨打电话时,如下所示:

result_data = zlib.decompress( base64_decoded_compressed_string )

我收到以下错误:

Error -3 while decompressing data: incorrect header check

Gzip并没有更好;在打电话时如:

result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()

我收到错误:

IOError: Not a gzipped file

这是有意义的,因为数据是一个Deflated文件而不是一个真正的Gzipped文件 .

现在我知道有一个Deflate实现可用(Pyflate),但我不知道Inflate的实现 .

似乎有几个选择:

  • Find an existing implementation (ideal) of Inflate and Deflate in Python

  • 将我自己的Python扩展编写到包含Inflate和Deflate的zlib c库中

  • 调用可以从命令行执行的其他内容(例如Ruby脚本,因为zlib中的Inflate / Deflate调用完全包装在Ruby中)

我正在寻求解决方案,但缺乏解决方案,我将感谢见解,建设性意见和想法 .

Additional information :为了我需要的目的,放松(和编码)字符串的结果应该与下面的C#代码片段给出相同的结果,其中输入参数是与要压缩的数据相对应的UTF字节数组:

public static string DeflateAndEncodeBase64(byte[] data)
{
    if (null == data || data.Length < 1) return null;
    string compressedBase64 = "";

    //write into a new memory stream wrapped by a deflate stream
    using (MemoryStream ms = new MemoryStream())
    {
        using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
        {
            //write byte buffer into memorystream
            deflateStream.Write(data, 0, data.Length);
            deflateStream.Close();

            //rewind memory stream and write to base 64 string
            byte[] compressedBytes = new byte[ms.Length];
            ms.Seek(0, SeekOrigin.Begin);
            ms.Read(compressedBytes, 0, (int)ms.Length);
            compressedBase64 = Convert.ToBase64String(compressedBytes);
        }
    }
    return compressedBase64;
}

为字符串“deflate and encode me”运行此.NET代码会得到结果

7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==

当“deflate and encode me”通过Python Zlib.compress()然后运行base64编码时,结果是“eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k =” .

很明显,zlib.compress()不是与标准Deflate算法相同算法的实现 .

More Information

在b64解码之后,.NET deflate数据的前2个字节(“7b0HY ...”)是0xEDBD,它不对应于Gzip数据(0x1f8b),BZip2(0x425A)数据或Zlib(0x789C)数据 .

在b64解码之后,Python压缩数据的前2个字节(“eJxLS ...”)是0x789C . 这是一个Zlib Headers .

SOLVED

要处理原始deflate和inflate,没有头和校验和,需要执行以下操作:

在deflate / compress上:剥离前两个字节( Headers )和最后四个字节(校验和) .

膨胀/解压缩:窗口大小有第二个参数 . 如果此值为负,则会抑制 Headers . 这是我目前的方法,包括base64编码/解码 - 并正常工作:

import zlib
import base64

def decode_base64_and_inflate( b64string ):
    decoded_data = base64.b64decode( b64string )
    return zlib.decompress( decoded_data , -15)

def deflate_and_base64_encode( string_val ):
    zlibbed_str = zlib.compress( string_val )
    compressed_string = zlibbed_str[2:-4]
    return base64.b64encode( compressed_string )

2 回答

  • 19

    这是MizardX的答案的附加组件,给出了一些解释和背景 .

    http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html

    根据RFC 1950,以默认方式构造的zlib流由以下内容组成:

    • 一个2字节的 Headers (例如0x78 0x9C)

    • 一个减压流 - 见RFC 1951

    • 未压缩数据的Adler-32校验和(4个字节)

    C# DeflateStream 正在(你猜对了)一个deflate流 . MizardX的代码告诉zlib模块数据是原始的deflate流 .

    观察:(1)人们希望C#“通缩”方法产生更长的字符串只发生短输入(2)使用没有Adler-32校验和的原始deflate流?有点冒险,除非用更好的东西取而代之 .

    Updates

    error message Block length does not match with its complement

    如果您尝试使用C# DeflateStream 来扩充某些压缩数据,并且您收到了该消息,那么您很可能会为其提供一个zlib流,而不是一个deflate流 .

    How do you use a DeflateStream on part of a file?

    同时将错误消息复制/粘贴到Google搜索中,您将获得大量点击(包括此答案前面的点击),说的大致相同 .

    The Java Deflater ... "the website"使用... C#DeflateStream "is pretty straightforward and has been tested against the Java implementation" . 该网站使用以下哪种可能的Java Deflater构造函数?

    public Deflater(int level,boolean nowrap)使用指定的压缩级别创建新的压缩器 . 如果'nowrap'为真,那么将不使用ZLIB头和校验和字段以支持GZIP和PKZIP中使用的压缩格式 . public Deflater(int level)使用指定的压缩级别创建新的压缩器 . 压缩数据将以ZLIB格式生成 . public Deflater()使用默认压缩级别创建新压缩器 . 压缩数据将以ZLIB格式生成 .

    抛弃2字节的zlib头和4字节后 A one-line deflater 校验:

    uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x
    

    要么

    zlib.compress(uncompressed_string)[2:-4]
    
  • 20

    您仍然可以使用zlib模块来膨胀/收缩数据 . gzip模块在内部使用它,但添加了一个文件头以使其成为一个gzip文件 . 查看gzip.py文件,这样的东西可以工作:

    import zlib
    
    def deflate(data, compresslevel=9):
        compress = zlib.compressobj(
                compresslevel,        # level: 0-9
                zlib.DEFLATED,        # method: must be DEFLATED
                -zlib.MAX_WBITS,      # window size in bits:
                                      #   -15..-8: negate, suppress header
                                      #   8..15: normal
                                      #   16..30: subtract 16, gzip header
                zlib.DEF_MEM_LEVEL,   # mem level: 1..8/9
                0                     # strategy:
                                      #   0 = Z_DEFAULT_STRATEGY
                                      #   1 = Z_FILTERED
                                      #   2 = Z_HUFFMAN_ONLY
                                      #   3 = Z_RLE
                                      #   4 = Z_FIXED
        )
        deflated = compress.compress(data)
        deflated += compress.flush()
        return deflated
    
    def inflate(data):
        decompress = zlib.decompressobj(
                -zlib.MAX_WBITS  # see above
        )
        inflated = decompress.decompress(data)
        inflated += decompress.flush()
        return inflated
    

    我不知道这是否完全符合您的服务器要求,但这两个函数能够往返我试过的任何数据 .

    参数直接映射到传递给zlib库函数的内容 .

    PythonC
    zlib.compressobj(...)deflateInit(...)
    compressobj.compress(...)deflate(...)
    zlib.decompressobj(...)inflateInit(...)
    decompressobj.decompress(...)inflate(...)

    构造函数创建结构并使用默认值填充它,并将其传递给init函数 . compress / decompress 方法更新结构并将其传递给 inflate / deflate .

相关问题