【问题标题】:How can I get the text from PDF page?如何从 PDF 页面获取文本?
【发布时间】:2012-03-14 17:15:41
【问题描述】:

如何在 Objective-C 中从 PDF 页面获取文本?

【问题讨论】:

标签: objective-c pdf


【解决方案1】:

首先 - 放弃任何用于解析 PDF 的“快速而肮脏”的解决方案 - 它会惨遭失败。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个(按质量,降序)选项:

  1. muPDF (http://www.mupdf.com/) 很棒的库 - 它可以很好地提取。它是在 GPL 下获得许可的,但这是我们专有应用程序的一个亮点。
  2. 基于CGPDFScanner 的自制解决方案。您可以找到有关如何执行此操作的简短说明 here 。这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制(我故意怀疑)。例如,您必须在 2D 空间中布置提取的文本块,因为 PDF 不保证绘图顺序与文本流匹配,iOS SDK 在这里没有一点帮助。
  3. Poppler (http://poppler.freedesktop.org/) 没问题,但对于文本提取,它大致相当于第二个选项(有大量额外的依赖项)。

Mac OS X 可以有更多选项,但我不知道。

【讨论】:

  • muPDF 仅供查看。
【解决方案2】:

这是适用于 iOS 还是 OS X?如果对于 OS X,您可以简单地创建一个 Automator 工作流程来提取文本,并从您的应用程序中调用该工作流程。 Automator 有一个 PDF 操作“提取 PDF 文本”用于此目的。 Automator framework 允许从您的应用程序调用自动化操作。一些示例代码可以在http://rogueamoeba.com/utm/2005/06/03/ 找到(注意实际代码已经更新以使用 Automator 框架)。

【讨论】:

猜你喜欢
  • 2016-12-28
  • 1970-01-01
  • 2017-09-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-10-23
  • 2010-10-14
  • 1970-01-01
相关资源
最近更新 更多