【发布时间】:2021-02-03 16:05:55
【问题描述】:
我正在尝试训练 Tesseract 4 从图像中识别一些电子电路图符号,例如电阻器、电容器等,但似乎没有直接的指导来训练 tesseract,官方文档似乎更关注字体而不是图像数据。
this post 上的回复似乎是迄今为止我发现的最有帮助的东西,但是按照步骤操作时出现错误:
到目前为止我做了什么:
- 在 ubuntu 16 上成功编译 tesseract 4.1.1 和训练工具
- 成功克隆了测试库
- 生成了 4 个组件的 tif 图像,标题为 image0.tiff - image.3.tiff
- 生成了 4 个同名的纯文本文件,名称为 image0.gt.txt - image3.gt.txt
- 每个文本文件中都有组件的名称,例如电阻器、电容器等。
- 将这些文件移动到适当的位置(测试/数据)
注意:我知道我需要比这更多的数据,这只是为了让一切正常工作并成功制作 .traineddata 文件的测试。
当我运行命令“make training MODEL_NAME=testModel_1”时,我在控制台中得到以下信息:
@CKVM1:~/Downloads/tesstrain$ make training MODEL_NAME=testModel_1
find: ‘data/testModel_1-ground-truth’: No such file or directory
find: ‘data/testModel_1-ground-truth’: No such file or directory
Error: missing ground truth for training
Makefile:175: recipe for target 'data/testModel_1/list.train' failed
make: *** [data/testModel_1/list.train] Error 1
我认为问题在于,在帖子中,我将说明链接到“START_MODEL”参数,据我了解,它使用您设置的任何语言作为起点来缩短培训时间,但因为我使用自定义符号而不是实际字母我看不出这对我有什么好处。然而,问题似乎是,它希望在训练开始之前已经存在一个(更一般的?)ground truth 文件,我不确定如何解决
关于如何解决这个问题的任何想法?
【问题讨论】:
标签: ubuntu ocr tesseract tesstrain