【问题标题】:Why do the md5 hashes of two tarballs of the same file differ?为什么同一文件的两个 tarball 的 md5 哈希值不同?
【发布时间】:2016-07-27 15:17:14
【问题描述】:

我可以跑:

echo "asdf" > testfile
tar czf a.tar.gz testfile
tar czf b.tar.gz testfile
md5sum *.tar.gz

事实证明a.tar.gzb.tar.gz 具有不同的 md5 哈希值。确实它们是不同的,diff -u a.tar.gz b.tar.gz 证实了这一点。

我还需要向tar 传递哪些额外的标志,以便它的输出随着时间的推移与相同的输入保持一致?

【问题讨论】:

  • gzip头包含原文件的修改时间。当输入来自流而不是压缩文件时,它使用当前时间。
  • @Barmar:谢谢。你知道如何避免这种情况发生吗?
  • 我想不出什么好办法。我将发布一个答案,您制作一个未压缩的 tarball,使用-p 选项复制它以保留mtime,然后压缩它们中的每一个。但问题是gzip也把输入的文件名放到了文件里,文件名会不一样。
  • 为什么不比较一下未压缩文件的校验和?
  • zcat a.tar.gz | md5sumzcat b.tar.gz | md5sum

标签: linux hash compression md5 tar


【解决方案1】:

tar czf outfile infiles 等价于

tar cf - infiles | gzip > outfile

文件不同的原因是gzip将其输入文件名和修改时间放入压缩文件中。当输入为管道时,使用空字符串作为文件名,当前时间作为修改时间。

但它也有一个--no-name 选项,告诉它不要将名称和时间戳放入文件中。因此,如果您显式编写扩展命令,而不是使用 -z 选项到 tar,您可以使用此选项。

tar cf - testfile | gzip --no-name > a.tar.gz
tar cf - testfile | gzip --no-name > b.tar.gz

我在 OS X 10.6.8 上对此进行了测试,它可以工作。

【讨论】:

  • 谢谢!这是完美的。
  • 我应该删除我的帖子,让您的帖子置顶吗?
  • 我没关系。
  • 我只是试图删除它,但因为它有一个接受的答案标志,我无法删除。我会要求 OP 接受你的。
  • @Harry 有很多 MSE 问题关于在这种情况下该怎么做,例如meta.stackexchange.com/questions/53235/…。最好的建议似乎是对错误的答案投反对票,以便正确的答案浮到顶部,所以我对你的答案投了反对票。
【解决方案2】:

对于 MacOS:

man tar 中,我们可以查看--options 部分,在那里我们会找到!timestamp 选项,它将从我们的gzip 存档中排除时间戳。用法:

tar --options '!timestamp' -cvzf archive.tgz filename

它将为具有相同名称的相同文件生成相同的 md5 和

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-17
    • 1970-01-01
    • 1970-01-01
    • 2021-04-05
    • 1970-01-01
    相关资源
    最近更新 更多