【发布时间】:2020-08-28 19:54:01
【问题描述】:
我有一个包含很多 gt.txt 和 tiff 文件的数据集,大约 1000 个文件,我尝试使用 tesstrain 项目并运行以下命令 make training MODEL_NAME=cmc7 TESSDATA=path/to/tessdata_best 此命令运行成功,但是当我尝试使用训练数据时,它没有按预期工作。我的问题是为 tesseract 训练我的数据集的正确形式是什么?谢谢。
【问题讨论】:
我有一个包含很多 gt.txt 和 tiff 文件的数据集,大约 1000 个文件,我尝试使用 tesstrain 项目并运行以下命令 make training MODEL_NAME=cmc7 TESSDATA=path/to/tessdata_best 此命令运行成功,但是当我尝试使用训练数据时,它没有按预期工作。我的问题是为 tesseract 训练我的数据集的正确形式是什么?谢谢。
【问题讨论】:
为了使用图像训练我的数据集,除了图像之外,我还使用了 2 种类型的文件:
我将所有 3 个文件放在 tesstrain/data/my-model-ground-truth 中,然后从 tesstrain 文件夹运行以下命令:
make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best
假设您想在 tessdata_best 存储库中的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best
这会在 tesstrain/data 文件夹中生成 my-model.traineddata
【讨论】: