【发布时间】:2020-03-03 14:46:54
【问题描述】:
我有一个大约 200 MB 的压缩文件,格式为 tar.gz 文件。我知道我可以提取其中的 xml 文件。它包含几个小的和一个 5 GB 的 xml 文件。我正在尝试从 xml 文件中删除某些字符。
所以我非常基本的问题是:是否有可能在不提取压缩文件内容的情况下完成此操作?
我正在尝试加快读取 xml 文件以查找要删除的字符的过程。
【问题讨论】:
-
您想更改压缩文件的内容,但不想解压缩(然后重新压缩)它?
gzip压缩不是这样工作的。 -
当您说“提取”时,您的实际意思是“写入磁盘”吗?如果是这样,应该可以在不向文件系统写入任何内容的情况下实现您想要的,但是您必须解压缩数据,删除不需要的字符,然后重新压缩它。
-
如果不写入磁盘,它在哪里解压?在记忆中?如果是这样,在处理大文件时这可能会成为一个问题?我正在尝试更好地理解 gzip。
标签: python-3.x xml gzip tarfile