【问题标题】:Python: parse pdf with images [closed]Python:用图像解析pdf [关闭]
【发布时间】:2015-09-20 20:32:43
【问题描述】:

我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?

【问题讨论】:

    标签: python pdf-parsing


    【解决方案1】:

    pdfminer 将获取您的文本。 pdfrw(免责声明:我是 pdfrw 的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有将 PDF 拆分为单独页面的示例,因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您在无头模式下运行inkscape(例如从子进程模块),它可以读取PDF并输出不同的格式。

    【讨论】:

    • 以下 pdfminer 文档说,不支持 Python 3。是这样吗? unixuser.org/~euske/python/pdfminer
    • 我认为有一个单独的 pdfminer3k 版本。此外,PyPDF2 具有一些提取功能。
    猜你喜欢
    • 2012-05-13
    • 1970-01-01
    • 2013-01-25
    • 2016-03-23
    • 2018-08-29
    • 1970-01-01
    • 1970-01-01
    • 2020-09-20
    • 1970-01-01
    相关资源
    最近更新 更多