【问题标题】:Tesseract how could I training my datasetTesseract 我如何训练我的数据集
【发布时间】:2020-08-28 19:54:01
【问题描述】:

我有一个包含很多 gt.txt 和 tiff 文件的数据集,大约 1000 个文件,我尝试使用 tesstrain 项目并运行以下命令 make training MODEL_NAME=cmc7 TESSDATA=path/to/tessdata_best 此命令运行成功,但是当我尝试使用训练数据时,它没有按预期工作。我的问题是为 tesseract 训练我的数据集的正确形式是什么?谢谢。

【问题讨论】:

    标签: tesseract tess4j


    【解决方案1】:

    为了使用图像训练我的数据集,除了图像之外,我还使用了 2 种类型的文件:

    • 具有预期输出的 gt.txt 文件
    • 框文件从图像中生成,其中包含我想要训练模型的更改

    我将所有 3 个文件放在 tesstrain/data/my-model-ground-truth 中,然后从 tesstrain 文件夹运行以下命令:

    make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best
    

    假设您想在 tessdata_best 存储库中的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best

    这会在 tesstrain/data 文件夹中生成 my-model.traineddata

    【讨论】:

    猜你喜欢
    • 2021-10-30
    • 1970-01-01
    • 1970-01-01
    • 2014-02-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多