【发布时间】:2021-03-04 15:57:22
【问题描述】:
我知道有一种方法可以使用 Ghostscript 将扫描的 PDF 文档转换为 OCR 的 PDF 文档,使用以下命令:
> bin\gswin64c.exe -sDEVICE=pdfocr32 -o D:\OCR\outputOCRdPDF.pdf -r600 -dDownScaleFactor=3 InputScannedPDF.pdf
它使用Tesseract 开源来做到这一点。根据available devices of GS for OCR,它可以转换为另一个 PDF 文档,而不仅仅是简单的文本(而 tesseract 也可以转换为纯文本)。
看起来我缺少与使用相关的内容。请在这里更正我或提供您宝贵的建议以转换为简单的文本而不是 PDF
【问题讨论】:
标签: pdf tesseract ghostscript