Python：用图像解析pdf [关闭]

【问题标题】：Python: parse pdf with images [closed]Python：用图像解析pdf [关闭]
【发布时间】：2015-09-20 20:32:43
【问题描述】：

我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理，并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么？

【问题讨论】：

【解决方案1】：

pdfminer 将获取您的文本。 pdfrw（免责声明：我是 pdfrw 的作者）有一些示例可以找到图像并将它们转储到单独的页面，还有将 PDF 拆分为单独页面的示例，因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您在无头模式下运行inkscape（例如从子进程模块），它可以读取PDF并输出不同的格式。

【讨论】：

以下 pdfminer 文档说，不支持 Python 3。是这样吗？ unixuser.org/~euske/python/pdfminer
我认为有一个单独的 pdfminer3k 版本。此外，PyPDF2 具有一些提取功能。