【问题标题】:Extract a text from PDF file with protected text从具有受保护文本的 PDF 文件中提取文本
【发布时间】:2023-02-06 21:34:38
【问题描述】:

我需要帮助从受保护的文本 PDF 文件(不是受密码保护的文本)中提取文本。

【问题讨论】:

  • “从此 PDF 文件中提取文本”- 哪个这个 PDF 文件“受保护的文本 PDF 文件(不是受密码保护的文本)”- 如果没有密码保护,那么怎么保护呢?
  • 如果没有密码保护文本提取 PyMuPDF 应该工作。
  • 这是一个没有密码的简单文件,但是当我想手动复制文本时,它不起作用,它是锁定的文本。

标签: python pdf pdf-reader pymupdf


【解决方案1】:

有多种方法可以从受保护的 PDF 文件中提取文本。一种选择是使用光学字符识别 (OCR) 软件,它可以识别文本的扫描图像并将其转换为可编辑的文本。 Adobe Acrobat Pro DC 和 ABBYY FineReader 是可用于此目的的 OCR 软件示例。

另一种选择是手动复制和粘贴文本,但如果 PDF 文件包含大量内容并且受到严格保护,这可能不可行。

请记住,某些 PDF 文件可能对复制、打印或编辑内容有限制,并且尝试从此类文件中提取文本可能会违反版权法。

【讨论】:

    最近更新 更多