【发布时间】:2010-11-16 13:23:40
【问题描述】:
这可能属于“不太可行”或“不值得付出努力”的范畴,但在这里。
我正在尝试随机访问存储在多部分 gzip 文件中的记录。具体来说,我感兴趣的文件是压缩的Heretrix Arc 文件。 (如果您不熟悉多部分 gzip 文件,gzip 规范允许将多个 gzip 流连接到一个 gzip 文件中。它们不共享任何字典信息,它是简单的二进制附加。)
我认为应该可以通过寻找文件中的某个偏移量来做到这一点,然后扫描 gzip 魔术头字节(即 0x1f8b,根据RFC),并尝试读取 gzip从以下字节流。这种方法的问题是这些相同的字节也可能出现在实际数据中,因此寻找这些字节可能会导致开始读取 gzip 流的无效位置。鉴于记录偏移量是先验未知的,是否有更好的方法来处理随机访问?
【问题讨论】:
标签: compression gzip multipart random-access