【问题标题】:Reliable way to (programmatically) compare PDFs? [duplicate](以编程方式)比较PDF的可靠方法? [复制]
【发布时间】:2011-04-19 14:15:41
【问题描述】:

可能重复:
Tool to compare large numbers of PDF files?

我处于经典场景中,企业为您提供了一堆新的 pdf 格式的新年表格,没有任何修订说明,您应该弄清楚与前一年的不同之处.

我在这里谈论大量表格,因此我试图找到一种方法来比较 PDF 以概述差异,而无需人们手动浏览每一个表格。

我的想法是从 PDF 中提取所有文本并将其转储到 .txt 中,然后在文本文件上运行差异,但这听起来很糟糕。

我的问题是以编程方式提出的,但我很乐意使用任何可靠的工具来比较 PDF,主要是希望从人们的经验中获得灵感。也愿意接受任何程序化解决方案(最好使用 C#,但请提出任何想法)。

【问题讨论】:

  • 为什么是重复的?显然,所问的问题是关于如何以编程方式进行。任何数量的可安装工具都不是这个问题的答案。

标签: c# language-agnostic pdf file-comparison


【解决方案1】:

有不少软件产品声称可以区分 pdf。我从来不需要使用一个,但如果这将是一个经常性的过程,我认为贵公司投资其中一个是明智的。只需谷歌“pdf diff”即可获得大量潜在应用程序。

另外,你的情况和这个问题非常相似:Tool to compare large numbers of PDF files?我认为它的讨论可能会有所帮助。

【讨论】:

  • 谢谢你 - 这个问题确实非常相似(由于某种原因在我撰写我的问题时没有弹出)。
【解决方案2】:

我采用了从 PDF 中获取原始数据的方法,然后使用 Word 或 TortiseSVN 或 WinMerge 等来处理比较部分。在我的例子中,我在 C# 中的 RichTextBox 中进行了比较...为差异着色等...因为我们希望在我们的应用程序中实现所有这些。

这就是我所做的...... PDF comparison 我试图比较混合文档、Word 和 PDF。

但是我会推荐 PDFBox 进行解析,更优雅一点...虽然 iTextSharp 工作正常...

【讨论】:

    【解决方案3】:

    我在https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/写了一篇博客,建议了一些比较 PDF 文件的方法

    【讨论】:

    • 把pdf转成图片然后比较还是需要人工干预?那么这有什么用呢?
    • 软件可以告诉你它们是否没有改变,这样你就知道你没有破坏任何东西。只有人类才能评估任何变化。
    【解决方案4】:

    我是Docotic.Pdf Library 的开发人员。我们在单元测试中使用 PDF 比较来检查测试是否按预期生成 PDF。 PDF 是特殊对象的集合,我们比较所有 PDF 对象,忽略一些属性,如预告片 ID 和创建者信息。此实现工作正常。

    你可以试试PdfDocument.DocumentsAreEqual的方法。这种方法只是告诉你文件是平等的,没有具体的区别。如果您需要更多功能,可以联系我们。

    【讨论】:

      猜你喜欢
      • 2012-10-31
      • 2023-04-03
      • 2012-02-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-06-19
      • 1970-01-01
      相关资源
      最近更新 更多