Tesseract OCR 力模式答案

【问题标题】：Tesseract OCR force patternTesseract OCR 力模式
【发布时间】：2015-10-30 16:50:12
【问题描述】：

我想用 Tesseract 读取一个特定的字符序列，就像这篇文章： Tesseract OCR: is it possible to force a specific pattern?

我已经尝试在 Tesseract 中将 bazaar 匹配模式与模式 \d\d\d\A\A 匹配，并且 OCR 仍然可以识别其他不匹配的单词。

我尝试使用“tessedit_char_whitelist”参数，但无法选择字符的位置。

请在模式的开头提供至少 4 个具体字符

无效的用户模式\A\A\d\d\d

Tesseract Open Source OCR Engine v3.01 with Leptonica

结果：

  AB123
  ABC12
  A1234
  12345
  ABCD1

所以错了，我只是想捕捉序列“AB123”。

有人能告诉我为什么我的用户模式文件中的正则表达式无效吗？配置方面，我严格按照bazaar教程进行。

【问题讨论】：

我相信这个错误：请在模式的开头提供至少 4 个具体字符 几乎可以解释自己。这可能是您使用的任何限制。也可以试试\w\w\d\d\d，\A 并不是你想要的所有“字符”。试试看here。
我试过\w\w\d\d\d，但我有同样的错误：请在模式的开头提供至少4个具体字符无效的用户模式\w\w\d\d\d。
我在我的模式中添加了 4 个具体字符：TEST\w\w\d\d\d 并用 TESTAB123 TESTABC12 等字样进行了测试...我没有更多错误 请在以下位置提供至少 4 个具体字符模式的开头，但我仍然有 无效的用户模式 TEST\w\w\d\d\d。我不明白为什么它无效
你试过[A-Z][A-Z][0-9][0-9][0-9]吗？你是在/path/to/eng.user-patterns 中定义的吗？ /path/to/configs/bazaar 是否包含user_patterns_suffix user-patterns？只是猜测......
这个功能很可能不再起作用了。 github.com/tesseract-ocr/tesseract/issues/960

【解决方案1】：

尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

这应该只包含 2 个字母字符和 3 个数字。

您之前匹配所有内容的原因是因为 \w 是字母数字。

【讨论】：