为自定义语言训练 Tesseract OCR 所需的数据答案

【问题标题】：Data needed to train Tesseract OCR for custom Language为自定义语言训练 Tesseract OCR 所需的数据
【发布时间】：2017-08-07 07:27:19
【问题描述】：

我正在尝试构建一种自定义语言以仅检测以下字符：

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L '、'M'、'N'、 'O'、'P'、'Q'、'R'、'S'、'T'、'U'、'V'、'W'、'X'、'Y'、'Z'、'0 ', '1', '2'、'3'、'4'、'5'、'6'、'7'、'8'、'9'、'

我已经生成了将近 50 张图像，并已针对这些图像生成了框文件以纠正错误。我的问题是为上述自定义字符训练 tesseract 是否需要使用由 tesseract 工具创建的图像在创建 cust.traindata 时也用作输入

我已经从上面的数组中编写了一个代码，它需要 5 个字符并使用 tesseract 工具构建图像，然后生成正确的 .box 文件，不需要调整所有可能的配置，但是因为创建了 tesseract是否需要为构建 cust.traindata 提供。

提前致谢。

【问题讨论】：

标签： tesseract training-data

【解决方案1】：

如果我们希望 tesseract 使用默认的“eng”语言来预测以下字母，我们不需要创建新语言 ['A'，'B'，'C'，'D'，'E'，'F'，'G'，'H'，'I'，'J'，'K'，'L'，' M'、'N'、'O'、'P'、'Q'、'R'、'S'、'T'、'U'、'V'、'W'、'X'、'Y' , 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '

您只需在 tesseract 中添加以下配置 tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789

例如。

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789

【讨论】：