PDF数据提取答案

【问题标题】：PDF data extractionPDF数据提取
【发布时间】：2015-11-24 02:19:56
【问题描述】：

我有没有办法通过突出显示所需的字段来获取扫描的 PDF 图像并从图像中提取数据？我们每天扫描数以千计的房地产契约 PDF 图像，并希望能够自动化数据输入过程。我们面临的问题是没有两个行为是相同的。

【问题讨论】：

你的新人在这里，因为我错过了你的代码和你遇到的错误。请阅读如何提问stackoverflow.com/help/how-to-ask 以及如何创建一个最小、完整和可验证的示例stackoverflow.com/help/mcve。

【解决方案1】：

在cmets中已经说过Stackoverflow主要是编程问题。

尽管如此，仍有可能，具体取决于实际文档和要处理的数量。

在高端，有一款名为 Teleform 的产品，最初由 Cardiff 开发，现在归 HP 所有，用于处理纸质表格；您还可以查看业务流程应用程序 Cardiff LiquidOffice，即现在的 HP LiquidOffice。

在低端，我开发了一个 PDF 格式的应用程序，在 Acrobat 下运行，它可以采用扫描和 OCRd 表格，并将数据传输到专门准备的可填写表格，从那里可以将数据导出到数据库，例如。如需更多信息、演示和报价，请随时私下与我联系。

如果你想使用 Acrobat 开发一些东西，你也可以从一个 OCRd 文档开始，然后使用 Redaction 功能的能力（或使用 Appligent 的工业级 Redaction 工具 Redax）找到关键字，然后使用这些关键字的位置信息以提取更多数据。

【讨论】：