从没有 XFA 表单的 PDF 文档中读取数据

【问题标题】：Read data from a PDF document that does not have an XFA-form从没有 XFA 表单的 PDF 文档中读取数据
【发布时间】：2017-08-09 08:53:14
【问题描述】：

我使用 iText 阅读包含 XFA 表单的 PDF 文档。我将其转换为 XML，从 XML 读取数据并将其插入数据库。但是，如果我在 PDF 中没有 XFA 表单，那么如何有效地从 PDF 中读取数据？

【问题讨论】：

标签： pdf itext pdf-parsing

【解决方案1】：

这取决于您的期望。

您可以使用文本提取来检索特定页面上的所有文本。然后如何处理文本取决于您。（例如正则表达式）
您还可以选择使用 pdf2Data，这是一个 iText7 插件，可让您将文档与模板进行匹配。 pdf2Data 似乎很合适，因为它生成 XML 文件作为其输出。

关于 pdf2Data 的更多信息可以在这里找到http://itextpdf.com/itext7/pdf2Data

【讨论】：

文本提取没有太大帮助，因为无法映射值
视情况而定。您可以使用将特定位置（矩形）作为输入的 TextExtractionStrategies。这使您可以采取更有针对性的方法。将文本放在某个（粗略定义的）位置后，您可以使用正则表达式进一步细化结果。
好的。谢谢，我会检查的。我对PDF不太熟悉。我使用 iText java 代码来读取 XFA 表单。您能否分享任何示例代码链接，让我了解如何以编程方式使用它
pdf2Data 和文本提取的示例代码可以在网站上找到。另外，如果对您有帮助，请点赞我的回答（或将其标记为已接受）。

猜你喜欢

2016-02-25
2019-05-11
2023-04-01
1970-01-01
2016-06-20
1970-01-01
2015-03-08
2018-05-26
1970-01-01

相关资源

下载 2021-06-05
下载 2022-12-13
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode