比较两个 PDF，将突出显示的差异输出回同一个 pdf答案

【问题标题】：Comparing Two PDFs, Outputting the highlighted differences back in the same pdf比较两个 PDF，将突出显示的差异输出回同一个 pdf
【发布时间】：2016-05-14 15:21:54
【问题描述】：

我能够从幽灵脚本中提取文本，并且能够一次比较文本的短语。然而问题是幽灵脚本以一种时髦的方式输出文本。我正在寻找按元素（表格、文本、图像）比较元素。我正在寻找一个自动化的解决方案来做到这一点。我正在寻找 Itextsharp 但找不到任何文档。

我最大的挑战是遍历元素并将它们与两个 PDF 中的元素进行比较。

有人可以帮忙吗？

【问题讨论】：

比较文件非常复杂。我建议你找一个第三方库。
您在寻找使用 c# 还是 python 的解决方案？
我正在寻找任何一个的解决方案。我花了几天时间尝试不同的图书馆，但仍然没有运气。他们中的大多数是有偿的。任何帮助深表感谢。提前谢谢你。

标签： c# python-2.7 pdf highlight

【解决方案1】：

解决办法是

使用iTextSharp分别提取图片和文字
使用google-diff-match-patch 比较文本（C# 和Python 均可用）
使用直方图或像this one based on pixels comparision这样的简单方法比较提取的图像
表格不是 PDF 中的单独对象，而只是文本对象 + 行（甚至只是带有网格的背景图像）。如果您希望使用表格，那么您可能有兴趣查看来自 ByteScout 的付费 PDF Extractor SDK 或开源 Tabula-extractor 项目，它们都能够检测和提取表格。

披露：我隶属于 ByteScout

【讨论】：

我能够使用 iTextSharp 提取文本。我创建了一个对象，其中包含文本、围绕它的矩形坐标和找到它的页码，这样我以后可以返回 PDF 并突出显示任何差异。我从我的对象列表中提取所有文本并调用 google-diff-match-patch 函数并获得所有正确的差异。现在我坚持将结果映射回我的对象以在正确的位置突出显示。
google-diff-patch-match 函数的结果被分解，例如，如果 PDFS 中的日期不同，12 月和 1 月将返回和和 .
是的，这就是它的工作方式，一个符号一个符号。您可以通过将 Efficiency Cleanup 设置为 8（默认为 4）来降低灵敏度。此外，您可能还想检查 DiffPlex（它仅适用于 c#），它逐行比较 github.com/mmanela/diffplex