用Java从PDF/A中提取文本答案

【问题标题】：Extract text from PDF/A in Java用Java从PDF/A中提取文本
【发布时间】：2012-05-30 18:55:57
【问题描述】：

是否有任何 Java 框架可以从 PDF/A 中提取文本？有许多 java PDF 框架，但没有指定是否支持该格式。

【问题讨论】：

PDF/A 不只是 PDF 的一个子集吗？这是否意味着任何可以阅读 PDF 的阅读器都可以阅读 PDF/A，但是您可能需要对创建 PDF/A 的特定支持（这不是您想要的），因为它需要具有所有字体、颜色空间、等嵌入。
那么您尝试过 tika 吗？它在标签中提到。
如果我理解 pdf/a 它或多或少像图像一样保存？而其他 pdf 可以有纯格式的文本。
我认为事实并非如此。正如@Jon Lin 所说，PDF/A 档案必须包含文档中使用的所有字体等，否则它们就像 PDF 文档一样，任何 PDF 阅读器都应该能够阅读它们。
好的，谢谢，那么我对 pdf/a 的理解有误。

【解决方案1】：

Leonard Rosenthol 在 itext 峰会上就 PDF 标准和格式做了出色的演讲。他解释了所有不同的子集。您可以通过http://www.parleys.com/#st=5&id=3188&sl=0在线观看视频

【讨论】：

【解决方案2】：

你应该检查http://itextpdf.com/（特别是this章节）。它是我用过的在 Java 中处理 PDF 文件的最佳开源框架。

【讨论】：