【问题标题】:Comparing Two PDFs, Outputting the highlighted differences back in the same pdf比较两个 PDF,将突出显示的差异输出回同一个 pdf
【发布时间】:2016-05-14 15:21:54
【问题描述】:

我能够从幽灵脚本中提取文本,并且能够一次比较文本的短语。然而问题是幽灵脚本以一种时髦的方式输出文本。我正在寻找按元素(表格、文本、图像)比较元素。我正在寻找一个自动化的解决方案来做到这一点。我正在寻找 Itextsharp 但找不到任何文档。

我最大的挑战是遍历元素并将它们与两个 PDF 中的元素进行比较。

有人可以帮忙吗?

【问题讨论】:

  • 比较文件非常复杂。我建议你找一个第三方库。
  • 您在寻找使用 c# 还是 python 的解决方案?
  • 我正在寻找任何一个的解决方案。我花了几天时间尝试不同的图书馆,但仍然没有运气。他们中的大多数是有偿的。任何帮助深表感谢。提前谢谢你。

标签: c# python-2.7 pdf highlight


【解决方案1】:

解决办法是

披露:我隶属于 ByteScout

【讨论】:

  • 我能够使用 iTextSharp 提取文本。我创建了一个对象,其中包含文本、围绕它的矩形坐标和找到它的页码,这样我以后可以返回 PDF 并突出显示任何差异。我从我的对象列表中提取所有文本并调用 google-diff-match-patch 函数并获得所有正确的差异。现在我坚持将结果映射回我的对象​​以在正确的位置突出显示。
  • google-diff-patch-match 函数的结果被分解,例如,如果 PDFS 中的日期不同,12 月和 1 月将返回 .
  • 是的,这就是它的工作方式,一个符号一个符号。您可以通过将 Efficiency Cleanup 设置为 8(默认为 4)来降低灵敏度。此外,您可能还想检查 DiffPlex(它仅适用于 c#),它逐行比较 github.com/mmanela/diffplex
猜你喜欢
  • 2012-09-12
  • 2017-06-06
  • 2017-01-20
  • 1970-01-01
  • 2016-04-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-11-30
相关资源
最近更新 更多