【发布时间】:2015-09-20 20:32:43
【问题描述】:
我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?
【问题讨论】:
标签: python pdf-parsing
我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?
【问题讨论】:
标签: python pdf-parsing
pdfminer 将获取您的文本。 pdfrw(免责声明:我是 pdfrw 的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有将 PDF 拆分为单独页面的示例,因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您在无头模式下运行inkscape(例如从子进程模块),它可以读取PDF并输出不同的格式。
【讨论】: