【发布时间】:2024-01-24 11:02:02
【问题描述】:
我有一个要求,我想比较 2 个相同的 excel/ppt/csv 文件,这些文件可能具有完全相同的内容,但可能在不同的时间点创建。
我只想使用任何 nodejs 包以任何可能的方式比较文件内容。
但我无法弄清楚如何通过流比较甚至缓冲区比较以更简单的方式完成它也无济于事。
我做了更多的研究,但没有太大的成功,我只是想知道如何在进行比较时忽略某些东西,例如时间戳和任何其他元数据,而只考虑匹配的内容。
我已经尝试过 stream-compare、stream-equal、file-compare、buff1.equals(buff2) 和其他几个,但其中九个似乎满足了我的要求。
但我没有在网上找到任何符合我要求的节点包。
关于如何实现它的任何见解或建议?
在此先感谢您的任何帮助。
【问题讨论】:
-
搜索计算文档散列值的包(例如 sha256)并比较两个文档。
-
@Illia Popov,我不确定这是否真的有帮助,因为我相信在散列时它也会考虑文件创建/修改日期和内容。尽管我考虑过这种方法,但由于我过去在散列方面的经验,我没有尝试这种方法,原因是我在上面的评论中提到的。无论如何,我会试一试。感谢您的回复??????
-
如果您引用文件系统元数据(文件创建/更新时间),那么它不会存储在内容流中,您最好使用散列。如果元数据存储在文件本身(公司/作者...)中,那么我认为没有一种简单的方法可以比较它们。我想到的一件事是将 doc 转换为通用格式(例如打印为 pdf)并匹配结果。 pandoc.org 可能对这种情况有用。
标签: node.js file stream comparison