【问题标题】:Extract text from PDF/A in Java用Java从PDF/A中提取文本
【发布时间】:2012-05-30 18:55:57
【问题描述】:

是否有任何 Java 框架可以从 PDF/A 中提取文本?有许多 java PDF 框架,但没有指定是否支持该格式。

【问题讨论】:

  • PDF/A 不只是 PDF 的一个子集吗?这是否意味着任何可以阅读 PDF 的阅读器都可以阅读 PDF/A,但是您可能需要对创建 PDF/A 的特定支持(这不是您想要的),因为它需要具有所有字体、颜色空间、等嵌入。
  • 那么您尝试过 tika 吗?它在标签中提到。
  • 如果我理解 pdf/a 它或多或少像图像一样保存?而其他 pdf 可以有纯格式的文本。
  • 我认为事实并非如此。正如@Jon Lin 所说,PDF/A 档案必须包含文档中使用的所有字体等,否则它们就像 PDF 文档一样,任何 PDF 阅读器都应该能够阅读它们。
  • 好的,谢谢,那么我对 pdf/a 的理解有误。

标签: java api pdf apache-tika


【解决方案1】:

Leonard Rosenthol 在 itext 峰会上就 PDF 标准和格式做了出色的演讲。他解释了所有不同的子集。您可以通过http://www.parleys.com/#st=5&id=3188&sl=0在线观看视频

http://lowagie.com/summit2012presentations有一个所有演示文稿的列表

【讨论】:

    【解决方案2】:

    你应该检查http://itextpdf.com/(特别是this章节)。它是我用过的在 Java 中处理 PDF 文件的最佳开源框架。

    【讨论】:

      猜你喜欢
      • 2019-12-13
      • 2016-08-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-17
      • 1970-01-01
      • 2018-01-06
      相关资源
      最近更新 更多