【发布时间】:2012-05-30 18:55:57
【问题描述】:
是否有任何 Java 框架可以从 PDF/A 中提取文本?有许多 java PDF 框架,但没有指定是否支持该格式。
【问题讨论】:
-
PDF/A 不只是 PDF 的一个子集吗?这是否意味着任何可以阅读 PDF 的阅读器都可以阅读 PDF/A,但是您可能需要对创建 PDF/A 的特定支持(这不是您想要的),因为它需要具有所有字体、颜色空间、等嵌入。
-
那么您尝试过 tika 吗?它在标签中提到。
-
如果我理解 pdf/a 它或多或少像图像一样保存?而其他 pdf 可以有纯格式的文本。
-
我认为事实并非如此。正如@Jon Lin 所说,PDF/A 档案必须包含文档中使用的所有字体等,否则它们就像 PDF 文档一样,任何 PDF 阅读器都应该能够阅读它们。
-
好的,谢谢,那么我对 pdf/a 的理解有误。
标签: java api pdf apache-tika