【问题标题】:What OCR options exist beyond Tesseract? [closed]除了 Tesseract,还有哪些 OCR 选项? [关闭]
【发布时间】:2012-03-30 06:00:43
【问题描述】:

我已经使用了一些 Tesseract,但它的结果还有很多不足之处。我目前正在检测非常小的图像(35x15,无边框,但尝试使用 imagemagick 添加一个没有 ocr 优势的图像);它们的范围从 2 个字符到 5 个字符,是一种非常可靠的字体,但是这些字符的可变性足以让简单地使用图像大小校验和之类的东西是行不通的。

除了坚持使用 Tesseract 或对其进行完整的自定义培训之外,OCR 还有哪些选择?此外,如果这与 Heroku 风格的托管兼容(至少我可以编译的地方),那将非常有帮助把垃圾箱推过去)。

【问题讨论】:

    标签: php python ruby ocr tesseract


    【解决方案1】:

    我过去曾成功地将GOCR 用于小图像 OCR。我会说在相当常规的字体上正确设置灰度选项后,准确率约为 85%。当字体变得复杂并且多行布局出现问题时,它会惨遭失败。

    还可以查看由 Google 维护的 Ocropus。它与 Tesseract 有关,但据我了解,它的 OCR 引擎是不同的。仅包含默认模型,它在高质量图像上实现了接近 99% 的准确度,很好地处理了布局,并提供了 HTML 输出,其中包含有关格式和线条的信息。但是,根据我的经验,当图像质量不够好时,它的准确性非常低。话虽如此,培训相对简单,您可能想尝试一下。

    它们都可以从命令行轻松调用。 GOCR 的使用非常简单;只需输入gocr -h,您就应该拥有所需的所有信息。 Ocropus 有点棘手。这是一个使用示例,在 Ruby 中:

    require 'fileutils'
    tmp = 'directory'
    file = 'file.png'
    
    `ocropus book2pages #{tmp}/out #{file}`
    `ocropus pages2lines #{tmp}/out`
    `ocropus lines2fsts #{tmp}/out`
    `ocropus buildhtml #{tmp}/out > #{tmp}/output.html`
    
    text = File.read("#{tmp}/output.html")
    FileUtils.rm_rf(tmp)
    

    【讨论】:

    • 非常有趣!谢谢一堆。我会对培训特别感兴趣。如果可以进行词汇训练或限制,我可以将词汇限制为大约 50 个“单词”,以便给它一个明确的界限。
    • 我建议你看看this video,它对如何训练 Ocropus 给出了可靠的解释。 GOCR 的训练对我来说仍然是个谜。我什至不确定这是否可能,并且文档没有帮助。
    • 对于ocropus,您是使用几年未更新的旧代码库,还是从 repo 中签出并编译工作中的较新更新?
    • 我使用了port install - 不确定我安装它时端口定义的年龄。我不知道它是否仍然如此,但很长一段时间以来,这是让它在 Mac OS X 上编译而无需在依赖地狱中花费数小时的唯一方法。但我肯定会尝试从源代码编译,如果你能让它工作的话。
    • 我正在考虑制作一个自制食谱,但它似乎有点复杂。最近几天的新源版本有一个安装脚本,但它需要一些对 mac os x 的帮助。 http://code.google.com/p/ocropus/source/listhttp://code.google.com/p/ocropus/wiki/InstallTranscript 可能会提供一些有用的参考资料。
    【解决方案2】:

    我们在我的办公室使用 Vividata 的 OCR XTR Lite。它使用 ScanSoft 引擎并且非常准确,但不是免费的解决方案。目前它是从 bash 编写的,我每天用它处理 75,000 到 150,000 页。准确度几乎是完美的,它会自动旋转图像以确定 OCR 方向。

    【讨论】:

      猜你喜欢
      • 2012-04-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-29
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-12-16
      相关资源
      最近更新 更多