【问题标题】:PDF data extractionPDF数据提取
【发布时间】:2015-11-24 02:19:56
【问题描述】:

我有没有办法通过突出显示所需的字段来获取扫描的 PDF 图像并从图像中提取数据?我们每天扫描数以千计的房地产契约 PDF 图像,并希望能够自动化数据输入过程。我们面临的问题是没有两个行为是相同的。

【问题讨论】:

标签: pdf pdf-scraping


【解决方案1】:

在cmets中已经说过Stackoverflow主要是编程问题。

尽管如此,仍有可能,具体取决于实际文档和要处理的数量。

在高端,有一款名为 Teleform 的产品,最初由 Cardiff 开发,现在归 HP 所有,用于处理纸质表格;您还可以查看业务流程应用程序 Cardiff LiquidOffice,即现在的 HP LiquidOffice。

在低端,我开发了一个 PDF 格式的应用程序,在 Acrobat 下运行,它可以采用扫描和 OCRd 表格,并将数据传输到专门准备的可填写表格,从那里可以将数据导出到数据库, 例如。如需更多信息、演示和报价,请随时私下与我联系。

如果你想使用 Acrobat 开发一些东西,你也可以从一个 OCRd 文档开始,然后使用 Redaction 功能的能力(或使用 Appligent 的工业级 Redaction 工具 Redax)找到关键字,然后使用这些关键字的位置信息以提取更多数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多