【发布时间】:2010-09-13 19:47:39
【问题描述】:
我需要比较大量 PDF 文件的光学内容。由于 PDF 文件是在不同平台上创建的,并且使用不同版本的软件,因此存在结构差异。例如:
- 文本的分块可以不同
- 写入顺序可以不同
- 位置可能会有所不同
它应该像人一样比较内容,而不是内部结构。我想测试我们使用的不同版本的 PDF 生成器之间的回归。
【问题讨论】:
-
部分答案是使用pdftotext 并比较包含的文本。
-
但这会忽略所有非文本信息,如线条、框、图片、图表等。我认为它也不会显示文本的光学位置,而是结构位置。
-
我同意,这不是一个充分的标准。另一方面,它是一个必要的标准,因此它作为一个单元测试是足够的。
-
以前从未遇到过您的情况,但我尝试ExamDiff Pro 比较 PDF,它对我有用。
-
以后可以随时添加更好的单元测试!