tesseract 4 为什么我的训练数据没有编译答案

【问题标题】：tesseract 4 Why isn't my training data compilingtesseract 4 为什么我的训练数据没有编译
【发布时间】：2021-02-03 16:05:55
【问题描述】：

我正在尝试训练 Tesseract 4 从图像中识别一些电子电路图符号，例如电阻器、电容器等，但似乎没有直接的指导来训练 tesseract，官方文档似乎更关注字体而不是图像数据。

this post 上的回复似乎是迄今为止我发现的最有帮助的东西，但是按照步骤操作时出现错误：

到目前为止我做了什么：

在 ubuntu 16 上成功编译 tesseract 4.1.1 和训练工具
成功克隆了测试库
生成了 4 个组件的 tif 图像，标题为 image0.tiff - image.3.tiff
生成了 4 个同名的纯文本文件，名称为 image0.gt.txt - image3.gt.txt
每个文本文件中都有组件的名称，例如电阻器、电容器等。
将这些文件移动到适当的位置（测试/数据）

注意：我知道我需要比这更多的数据，这只是为了让一切正常工作并成功制作 .traineddata 文件的测试。

当我运行命令“make training MODEL_NAME=testModel_1”时，我在控制台中得到以下信息：

@CKVM1:~/Downloads/tesstrain$ make training MODEL_NAME=testModel_1
find: ‘data/testModel_1-ground-truth’: No such file or directory
find: ‘data/testModel_1-ground-truth’: No such file or directory
Error: missing ground truth for training
Makefile:175: recipe for target 'data/testModel_1/list.train' failed
make: *** [data/testModel_1/list.train] Error 1

我认为问题在于，在帖子中，我将说明链接到“START_MODEL”参数，据我了解，它使用您设置的任何语言作为起点来缩短培训时间，但因为我使用自定义符号而不是实际字母我看不出这对我有什么好处。然而，问题似乎是，它希望在训练开始之前已经存在一个（更一般的？）ground truth 文件，我不确定如何解决

关于如何解决这个问题的任何想法？

【问题讨论】：

标签： ubuntu ocr tesseract tesstrain

【解决方案1】：

确保您的训练数据位于“teststrain/data/testModel_1-ground-truth”中。

您可以在https://github.com/tesseract-ocr/tesstrain/blob/0d972f86f4aaf88fde77e3445ff607e68866c882/Makefile#L200 上查看“进行培训”正在做什么

您会看到它正在“GROUND_TRUTH_DIR”中寻找某些东西。

$(ALL_GT): $(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt')
    @mkdir -p $(OUTPUT_DIR)
    find $(GROUND_TRUTH_DIR) -name '*.gt.txt' | xargs paste -s > "$@"

GROUND_TRUTH_DIR 默认为“GROUND_TRUTH_DIR := $(OUTPUT_DIR)-ground-truth”

如果我们继续跟踪环境变量的路径...

# Name of the model to be built. Default: $(MODEL_NAME)
MODEL_NAME = foo

# Data directory for output files, proto model, start model, etc. Default: $(DATA_DIR)
DATA_DIR = data

# Output directory for generated files. Default: $(OUTPUT_DIR)
OUTPUT_DIR = $(DATA_DIR)/$(MODEL_NAME)

鉴于您的错误消息的输出，看起来您的任何环境变量都没有从其默认值更改，这很好。一切都应该工作。看起来培训计划只是在抱怨您在“teststrain-data-testModel_1-ground-truth”没有文件夹，这是必需的。

【讨论】：