【发布时间】:2019-06-19 23:19:25
【问题描述】:
我有一个包含数百万个 xml 文件的大型 tar.gz 文件。
split linux 中的命令可以按字节数/行数进行拆分,但不能按文件数进行拆分。例如,我想将 gzip 文件拆分为每个输出子 gzip 中的 300k 个文件。是否有实用程序来实现这一点?
我的最终目标是在 Python 中处理 tar.gz,我需要将文件拆分成更小的块来保留文件。拆分将允许并行处理它们。
【问题讨论】:
-
Gzip 不跟踪文件边界。你确定不是
.tar.gz? -
@Barmar 回答您的第一个问题:您是对的,它是
.tar.gz。对于你的第二点 - 完全同意。然而,我已经实现了一个 Python 代码来解决这个问题。 -
您应该更正问题以说出您的真正意思。
-
@Barmar 谢谢,我已经更新了
标签: python linux split tar gzip