【问题标题】:Data needed to train Tesseract OCR for custom Language为自定义语言训练 Tesseract OCR 所需的数据
【发布时间】:2017-08-07 07:27:19
【问题描述】:

我正在尝试构建一种自定义语言以仅检测以下字符:

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L '、'M'、'N'、 'O'、'P'、'Q'、'R'、'S'、'T'、'U'、'V'、'W'、'X'、'Y'、'Z'、'0 ', '1', '2'、'3'、'4'、'5'、'6'、'7'、'8'、'9'、'

我已经生成了将近 50 张图像,并已针对这些图像生成了框文件以纠正错误。 我的问题是为上述自定义字符训练 tesseract 是否需要使用由 tesseract 工具创建的图像在创建 cust.traindata 时也用作输入

我已经从上面的数组中编写了一个代码,它需要 5 个字符并使用 tesseract 工具构建图像,然后生成正确的 .box 文件,不需要调整所有可能的配置,但是因为创建了 tesseract是否需要为构建 cust.traindata 提供。

提前致谢。

【问题讨论】:

    标签: tesseract training-data


    【解决方案1】:

    如果我们希望 tesseract 使用默认的“eng”语言来预测以下字母,我们不需要创建新语言 ['A','B','C','D','E','F','G','H','I','J','K','L',' M'、'N'、'O'、'P'、'Q'、'R'、'S'、'T'、'U'、'V'、'W'、'X'、'Y' , 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '

    您只需在 tesseract 中添加以下配置 tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789

    例如。

    tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-11-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多