【发布时间】:2021-06-06 07:16:06
【问题描述】:
我正在使用这个库 PYMUPDF (Documentation),它提供了使用 python 处理 PDF 文档的各种功能。
我想要实现的目标:我想提取所有图像(我不能使用典型的方法,因为图像不是光栅。它们是带有机器可读文本的向量,因此我想仅显示图像的 PDF 页面)及其标签(即“图 1:XYZ”)来自 PDF 文档。
我现在的位置:我能够缩小到包含图像的页面,将 PDF 页面转换为图像并使用标签重命名文件。
我希望如果这是一种从页面中删除所有文本的方法,那么我可以只保存图像(和一些空白,应该没问题)的图像文件
【问题讨论】: