【发布时间】:2023-03-16 18:49:01
【问题描述】:
如果您有 1,000,0000 个源文件,您怀疑它们都是相同的,并且您想比较它们目前比较这些文件的禁食方法是什么?假设它们是 Java 文件,并且进行比较的平台并不重要。 cksum 让我哭了。当我的意思是相同时,我的意思是所有相同。
更新:我知道生成校验和。 diff 是可笑的......我想要速度。
更新:不要拘泥于它们是源文件这一事实。例如,假设您运行了一百万次输出非常规范的程序。您想证明输出的所有 1,000,000 个版本都是相同的。
更新:读取块数而不是字节数?立即扔掉那些?这比查找字节数更快吗?
更新:这与比较两个文件的最快方法有什么不同吗?
【问题讨论】:
-
diff 之所以可笑,只是因为它是错误的工具——它为您提供了计算得出的差异。如果您只想知道两个文件是否相同,请使用 cmp。
-
1,000,0000 个源文件,比较一下,我无法想象 100 万个源文件在哪里使用。
-
您提到它们是 Java 文件。您是否需要一个可以忽略空格和格式差异的工具?
-
假设您运行一个程序一百万次...绝对需要相同...您想比较百万个不同的输出...
-
@ojblass,使用线程... zoundsss。
标签: language-agnostic file comparison