【发布时间】:2023-03-23 00:24:01
【问题描述】:
我正在尝试阅读由多个表格组成的 PDF 文件的内容。使用带有 Adobe API 的 Java,如果所有单元格都有一行内容,我可以提取表格中的内容。当一个单元格有多行时,就会出现问题,导致提取的内容移动到下一行,从而导致与表格标题不对齐。
有什么方法可以按原样从 PDF 中提取内容,同时保持表格格式与 PDF 中的显示方式相同?我目前正在使用 \t 转义字符来提取数据。
【问题讨论】:
-
通常从打印格式中提取原始数据需要应用程序定位锚点以了解何时转换状态。在您的表格中,您可能有分界线或某种关键文本形式的锚点。我不会错过做这种工作的。