使用 Adobe API 提取 PDF 内容答案

【问题标题】：Extracting PDF content using the Adobe API使用 Adobe API 提取 PDF 内容
【发布时间】：2023-03-23 00:24:01
【问题描述】：

我正在尝试阅读由多个表格组成的 PDF 文件的内容。使用带有 Adobe API 的 Java，如果所有单元格都有一行内容，我可以提取表格中的内容。当一个单元格有多行时，就会出现问题，导致提取的内容移动到下一行，从而导致与表格标题不对齐。

有什么方法可以按原样从 PDF 中提取内容，同时保持表格格式与 PDF 中的显示方式相同？我目前正在使用 \t 转义字符来提取数据。

【问题讨论】：

【解决方案1】：

一个老问题 - 但现在有了一个新答案。 Adobe 将发布全新的PDF Extract API（目前为private beta，但预计发布日期为 2021 年 6 月），旨在解决这个问题和许多其他问题。我不是 Adobe 的啦啦队长，所以我不会在这里大肆渲染它；但我们是非常满意的客户。

【讨论】：

【解决方案2】：

PDF 中的文本未格式化。它们只是似乎被格式化了。同样，表格只是其中的线条图和文本。您需要一个可以智能地重构页面元素的 PDF 库。但是无论图书馆多么聪明，总会有几行被打破。

这是我公司制作的 Java PDF 库 PDFOne 尝试的屏幕截图。公平地说，可能还有其他图书馆可以做同样的事情。您将不得不对您的 PDF 集合进行一些测试，看看哪个是好的。

【讨论】：