从具有受保护文本的 PDF 文件中提取文本答案

【问题标题】：Extract a text from PDF file with protected text从具有受保护文本的 PDF 文件中提取文本
【发布时间】：2023-02-06 21:34:38
【问题描述】：

我需要帮助从受保护的文本 PDF 文件（不是受密码保护的文本）中提取文本。

【问题讨论】：

“从此 PDF 文件中提取文本”- 哪个这个 PDF 文件？“受保护的文本 PDF 文件（不是受密码保护的文本）”- 如果没有密码保护，那么怎么保护呢？
如果没有密码保护文本提取 PyMuPDF 应该工作。
这是一个没有密码的简单文件，但是当我想手动复制文本时，它不起作用，它是锁定的文本。

【解决方案1】：

有多种方法可以从受保护的 PDF 文件中提取文本。一种选择是使用光学字符识别 (OCR) 软件，它可以识别文本的扫描图像并将其转换为可编辑的文本。 Adobe Acrobat Pro DC 和 ABBYY FineReader 是可用于此目的的 OCR 软件示例。

另一种选择是手动复制和粘贴文本，但如果 PDF 文件包含大量内容并且受到严格保护，这可能不可行。

请记住，某些 PDF 文件可能对复制、打印或编辑内容有限制，并且尝试从此类文件中提取文本可能会违反版权法。

【讨论】：