【问题标题】:How to remove text from a PDF and save them via code using Python如何从 PDF 中删除文本并使用 Python 通过代码保存它们
【发布时间】:2021-06-06 07:16:06
【问题描述】:

我正在使用这个库 PYMUPDF (Documentation),它提供了使用 python 处理 PDF 文档的各种功能。

我想要实现的目标:我想提取所有图像(我不能使用典型的方法,因为图像不是光栅。它们是带有机器可读文本的向量,因此我想仅显示图像的 PDF 页面)及其标签(即“图 1:XYZ”)来自 PDF 文档。

我现在的位置:我能够缩小到包含图像的页面,将 PDF 页面转换为图像并使用标签重命名文件。

我希望如果这是一种从页面中删除所有文本的方法,那么我可以只保存图像(和一些空白,应该没问题)的图像文件

【问题讨论】:

    标签: python pdf


    【解决方案1】:

    我对 python 一无所知,但使用 UniPDF 很容易做到这一点。它们具有许多功能的内置代码,您可以根据需要自定义代码。在https://github.com/unidoc/unipdf-examples 上查看他们的示例。

    我相信这会对您有很大帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-12-21
      • 2021-05-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-18
      • 2015-06-11
      • 1970-01-01
      相关资源
      最近更新 更多