【问题标题】:Read data from a PDF document that does not have an XFA-form从没有 XFA 表单的 PDF 文档中读取数据
【发布时间】:2017-08-09 08:53:14
【问题描述】:

我使用 iText 阅读包含 XFA 表单的 PDF 文档。 我将其转换为 XML,从 XML 读取数据并将其插入数据库。 但是,如果我在 PDF 中没有 XFA 表单,那么如何有效地从 PDF 中读取数据?

【问题讨论】:

    标签: pdf itext pdf-parsing


    【解决方案1】:

    这取决于您的期望。

    • 您可以使用文本提取来检索特定页面上的所有文本。然后如何处理文本取决于您。 (例如正则表达式)

    • 您还可以选择使用 pdf2Data,这是一个 iText7 插件,可让您将文档与模板进行匹配。 pdf2Data 似乎很合适,因为它生成 XML 文件作为其输出。

    关于 pdf2Data 的更多信息可以在这里找到http://itextpdf.com/itext7/pdf2Data

    【讨论】:

    • 文本提取没有太大帮助,因为无法映射值
    • 视情况而定。您可以使用将特定位置(矩形)作为输入的 TextExtractionStrategies。这使您可以采取更有针对性的方法。将文本放在某个(粗略定义的)位置后,您可以使用正则表达式进一步细化结果。
    • 好的。谢谢,我会检查的。我对PDF不太熟悉。我使用 iText java 代码来读取 XFA 表单。您能否分享任何示例代码链接,让我了解如何以编程方式使用它
    • pdf2Data 和文本提取的示例代码可以在网站上找到。另外,如果对您有帮助,请点赞我的回答(或将其标记为已接受)。
    猜你喜欢
    • 2016-02-25
    • 2019-05-11
    • 2023-04-01
    • 1970-01-01
    • 2016-06-20
    • 1970-01-01
    • 2015-03-08
    • 2018-05-26
    • 1970-01-01
    相关资源
    最近更新 更多