【问题标题】:Convert scanned PDF to Plain Text using Ghostscript使用 Ghostscript 将扫描的 PDF 转换为纯文本
【发布时间】:2021-03-04 15:57:22
【问题描述】:

我知道有一种方法可以使用 Ghostscript 将扫描的 PDF 文档转换为 OCR 的 PDF 文档,使用以下命令:

> bin\gswin64c.exe -sDEVICE=pdfocr32 -o D:\OCR\outputOCRdPDF.pdf -r600 -dDownScaleFactor=3 InputScannedPDF.pdf

它使用Tesseract 开源来做到这一点。根据available devices of GS for OCR,它可以转换为另一个 PDF 文档,而不仅仅是简单的文本(而 tesseract 也可以转换为纯文本)。

看起来我缺少与使用相关的内容。请在这里更正我或提供您宝贵的建议以转换为简单的文本而不是 PDF

【问题讨论】:

    标签: pdf tesseract ghostscript


    【解决方案1】:
    1. 将 pdf 转换为 tif(如果是多页文档)或其他图像(使用 ghostcript,mupdf,或从 pdf 中提取图像(如果 pdf 是使用扫描仪创建的)
    2. 带有 tesseract 的 OCR 图像。

    【讨论】:

      猜你喜欢
      • 2018-01-10
      • 2016-06-06
      • 1970-01-01
      • 1970-01-01
      • 2017-12-12
      • 1970-01-01
      • 2013-12-27
      • 2011-05-16
      • 2015-02-28
      相关资源
      最近更新 更多