识别和提取 PDF 文档的特定部分答案

【问题标题】：Identify and extract specific sections of a PDF document识别和提取 PDF 文档的特定部分
【发布时间】：2018-04-19 07:33:11
【问题描述】：

我有几个 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR 并不理想，因为它不能很好地维护代码/方程式格式。最终目标是制作卡片，每张卡片都包含整个问题的图像。问题可以在同一页面上，也可以是多部分的（例如 1a、2f 等）。

目前，我正在考虑使用 OCR 来提取问题标签（例如 1、2、3 等），然后在 pdf 中找到它们的位置，并从一个问题的开头到下一个问题的开头提取一个 iamge .是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易？

【问题讨论】：

对于 OCR 和图像识别部分，您可以随时尝试Azure Cognitive Services（如果可以在线连接）。无论如何都可以免费试用，如果有帮助，我已经写了一个 blog post 来讲述我的经历。

标签： python pdf ocr image-recognition pdf-parsing

【解决方案1】：

看看Science-Parse 的Allen AI。它在从 PDF 文档中提取元数据方面做得相当不错。通常，它比textract 和pdfplumber 等其他文本提取软件要好。

从PDF中准确提取数学公式多年来一直是一个研究课题。我没有找到任何与精确提取数学公式相关的开源项目/包/软件，尽管有许多研究论文描述了这样做的方法，例如this 和this。（关于数学公式的识别或将它们转换为适当的标记，如 LaTeX、MathML 等，已经进行了更多研究。）这些论文中的大多数使用有关字体、基线、字形边界框的信息，行间距等，以正确识别数学公式并提取它们。

对于 OCR，您始终可以使用 Infty。 InftyReader 的描述是这样说的：

InftyReader 可识别印刷科学文档的扫描图像包括数学公式，以各种形式输出识别结果格式：InftyEditor、LaTeX、MathML、Human-Readable TeX 的 XML 格式用于百叶窗等。

【讨论】：