如何从 PDF 页面获取文本？答案

【问题标题】：How can I get the text from PDF page?如何从 PDF 页面获取文本？
【发布时间】：2012-03-14 17:15:41
【问题描述】：

如何在 Objective-C 中从 PDF 页面获取文本？

【问题讨论】：

重复问题。见stackoverflow.com/questions/3287635/…
那么答案在哪里？
@Avram 该问题与从 PDF 中提取文本无关
对不起，错误的链接。见：stackoverflow.com/questions/2960195/…
我明白了。仍然代表那里的“解决方案”充其量是蹩脚的。它不适用于任何重要的 PDF。

标签： objective-c pdf

【解决方案1】：

首先 - 放弃任何用于解析 PDF 的“快速而肮脏”的解决方案 - 它会惨遭失败。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个（按质量，降序）选项：

muPDF (http://www.mupdf.com/) 很棒的库 - 它可以很好地提取。它是在 GPL 下获得许可的，但这是我们专有应用程序的一个亮点。
基于CGPDFScanner 的自制解决方案。您可以找到有关如何执行此操作的简短说明 here 。这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制（我故意怀疑）。例如，您必须在 2D 空间中布置提取的文本块，因为 PDF 不保证绘图顺序与文本流匹配，iOS SDK 在这里没有一点帮助。
Poppler (http://poppler.freedesktop.org/) 没问题，但对于文本提取，它大致相当于第二个选项（有大量额外的依赖项）。

Mac OS X 可以有更多选项，但我不知道。

【讨论】：

muPDF 仅供查看。

【解决方案2】：

这是适用于 iOS 还是 OS X？如果对于 OS X，您可以简单地创建一个 Automator 工作流程来提取文本，并从您的应用程序中调用该工作流程。 Automator 有一个 PDF 操作“提取 PDF 文本”用于此目的。 Automator framework 允许从您的应用程序调用自动化操作。一些示例代码可以在http://rogueamoeba.com/utm/2005/06/03/ 找到（注意实际代码已经更新以使用 Automator 框架）。

【讨论】：

然后如下所述，您需要使用第三方库或开发自己的库。除了已经提到的之外，您还可以查看github.com/KurtCode/PDFKitten（搜索功能，但也可以提取文本）和github.com/mobfarm/FastPdfKit（提供免费版本和付费版本）