使用 Ghostscript 将扫描的 PDF 转换为纯文本答案

【问题标题】：Convert scanned PDF to Plain Text using Ghostscript使用 Ghostscript 将扫描的 PDF 转换为纯文本
【发布时间】：2021-03-04 15:57:22
【问题描述】：

我知道有一种方法可以使用 Ghostscript 将扫描的 PDF 文档转换为 OCR 的 PDF 文档，使用以下命令：

> bin\gswin64c.exe -sDEVICE=pdfocr32 -o D:\OCR\outputOCRdPDF.pdf -r600 -dDownScaleFactor=3 InputScannedPDF.pdf

它使用Tesseract 开源来做到这一点。根据available devices of GS for OCR，它可以转换为另一个 PDF 文档，而不仅仅是简单的文本（而 tesseract 也可以转换为纯文本）。

看起来我缺少与使用相关的内容。请在这里更正我或提供您宝贵的建议以转换为简单的文本而不是 PDF

【问题讨论】：

【解决方案1】：

【讨论】：