如何快速从图像中扫描可搜索的pdf？答案

【问题标题】：How to scan searchable pdf from image in swift?如何快速从图像中扫描可搜索的pdf？
【发布时间】：2020-10-13 18:17:34
【问题描述】：

我想用 tesseract 框架快速扫描文档并生成可搜索的 pdf 文件。

实际上，我正在使用此代码将图像转换为文本，但我想生成主要格式的图片，但格式会随着转换为文本并生成 pdf 文件而改变。我的代码是：

   func recognizeText(image:UIImage) ->String {
        var str = "0"
        if let tessaract = G8Tesseract(language: "eng") {
            tessaract.engineMode = .tesseractCubeCombined
            tessaract.pageSegmentationMode = .auto
            tessaract.image = image
            tessaract.recognize()
            str = tessaract.recognizedText ?? "0000"
        }
        return str
    }

【问题讨论】：

标签： ios swift pdf ocr swift5

【解决方案1】：

使用 OCR 使扫描图像中的文本可搜索后，您可能需要使用能够生成 PDF 输出的库或 SDK。

输出可能是多层 PDF，其中一层将保存已识别的文本，而上一层将保存之前扫描的图像，从而使 PDF 可供搜索。

有多个库可用于生成 PDF，我可以建议的一个库（因为我为供应商工作）是 LEADTOOLS 工具包，它具有 OCR 和文档转换功能： https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/

【讨论】：