【问题标题】:Training the "tesseract ocr" with predefined font images使用预定义的字体图像训练“tesseract ocr”
【发布时间】:2014-06-05 15:11:14
【问题描述】:

我正在尝试对图像中的 ASCII 字符串进行 OCR 识别。我正在使用 Tesseract3 库,但我在正确识别方面遇到了一点问题,所以我需要用新的字符集(这是特定的)来训练它。 我已经发现了这个 HOW-TO:TrainingTesseract3,但是由于我的图像测试集的简单性,本教程有一些我不需要的不必要的过程。 我的图像数据集仅包含 1 行,其中每个 ASCII 字符在所有图像中都是 相同(无旋转、无缩放),但具有可变距离(仅水平) 行中的字符之间。

如何使用字体图像来训练识别算法?

【问题讨论】:

    标签: pattern-matching ascii ocr tesseract training-data


    【解决方案1】:

    先生,只需获取您想要训练的特定字体,然后在记事本中写下字母或数字(我认为 5 个代表/字母)保存为 tiff 文件。如果您想训练它,请使用 https://code.google.com/p/serak-tesseract-trainer/http://vietocr.sourceforge.net/training.html 中的任何一个。

    【讨论】:

    • 谢谢,我已经发现了jTessBoxEditor,但是不知道如何正确处理训练过程,而我已经只有每种字体的精确图像,甚至那些比推荐的要小(只有_9x6_px)。感谢您的正确指导。
    • 如果你很难使用 jTessBoxEditor 来训练它。只要按照 tesseract3 上的说明使用 serak trainer,你就会发现它是多么容易。
    • 是否有适用于 Ubuntu 的 Serak 培训师?
    猜你喜欢
    • 2012-11-05
    • 1970-01-01
    • 2020-06-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-05-08
    • 1970-01-01
    相关资源
    最近更新 更多