【发布时间】:2008-10-20 04:53:59
【问题描述】:
我正在编写一个脚本来查找大型图像库中的删除重复项。目前我正在做一个两通过滤器,首先查找相同大小的文件,然后对文件的 10240 字节片段执行 sha256 以获得相同大小的文件的指纹(代码here)。
它工作得很好,但我猜可能有内置到 jpeg 格式的校验和,我可以使用它来代替 sha256。
有谁知道是否有校验和或其他组件可以充当校验和/指纹?如果是这样,是否有有效的方法来访问它们?
【问题讨论】:
-
对于任何尝试类似事情的人:SHA 系列旨在用于加密目的并且对于此类应用程序而言不必要的复杂性,一个简单得多的 CRC 就足够了(但我不会做任何比 MD5 更复杂的事情)。由此产生的加速可用于覆盖整个文件,而不是任意选择的 10240。如果 CRC 与标准化大小规范(例如 8 字节)相结合,则第二遍已过时。
标签: checksum jpeg fingerprint