如何从 PDF 中删除文本并使用 Python 通过代码保存它们答案

【问题标题】：How to remove text from a PDF and save them via code using Python如何从 PDF 中删除文本并使用 Python 通过代码保存它们
【发布时间】：2021-06-06 07:16:06
【问题描述】：

我正在使用这个库 PYMUPDF (Documentation)，它提供了使用 python 处理 PDF 文档的各种功能。

我想要实现的目标：我想提取所有图像（我不能使用典型的方法，因为图像不是光栅。它们是带有机器可读文本的向量，因此我想仅显示图像的 PDF 页面）及其标签（即“图 1：XYZ”）来自 PDF 文档。

我现在的位置：我能够缩小到包含图像的页面，将 PDF 页面转换为图像并使用标签重命名文件。

我希望如果这是一种从页面中删除所有文本的方法，那么我可以只保存图像（和一些空白，应该没问题）的图像文件

【问题讨论】：

标签： python pdf

【解决方案1】：

我对 python 一无所知，但使用 UniPDF 很容易做到这一点。它们具有许多功能的内置代码，您可以根据需要自定义代码。在https://github.com/unidoc/unipdf-examples 上查看他们的示例。

我相信这会对您有很大帮助。

【讨论】：