【问题标题】:Extracting PDF content using the Adobe API使用 Adob​​e API 提取 PDF 内容
【发布时间】:2023-03-23 00:24:01
【问题描述】:

我正在尝试阅读由多个表格组成的 PDF 文件的内容。使用带有 Adob​​e API 的 Java,如果所有单元格都有一行内容,我可以提取表格中的内容。当一个单元格有多行时,就会出现问题,导致提取的内容移动到下一行,从而导致与表格标题不对齐。

有什么方法可以按原样从 PDF 中提取内容,同时保持表格格式与 PDF 中的显示方式相同?我目前正在使用 \t 转义字符来提取数据。

【问题讨论】:

  • 通常从打印格式中提取原始数据需要应用程序定位锚点以了解何时转换状态。在您的表格中,您可能有分界线或某种关键文本形式的锚点。我不会错过做这种工作的。

标签: java pdf adobe


【解决方案1】:

一个老问题 - 但现在有了一个新答案。 Adobe 将发布全新的PDF Extract API(目前为private beta,但预计发布日期为 2021 年 6 月),旨在解决这个问题和许多其他问题。我不是 Adob​​e 的啦啦队长,所以我不会在这里大肆渲染它;但我们是非常满意的客户。

【讨论】:

    【解决方案2】:

    PDF 中的文本未格式化。它们只是似乎被格式化了。同样,表格只是其中的线条图和文本。您需要一个可以智能地重构页面元素的 PDF 库。但是无论图书馆多么聪明,总会有几行被打破。

    这是我公司制作的 Java PDF 库 PDFOne 尝试的屏幕截图。公平地说,可能还有其他图书馆可以做同样的事情。您将不得不对您的 PDF 集合进行一些测试,看看哪个是好的。

    http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-10-21
      • 2021-10-30
      • 2016-09-26
      • 1970-01-01
      • 2023-03-15
      • 1970-01-01
      • 1970-01-01
      • 2019-01-20
      相关资源
      最近更新 更多