【问题标题】:Tesseract OCR force patternTesseract OCR 力模式
【发布时间】:2015-10-30 16:50:12
【问题描述】:

我想用 Tesseract 读取一个特定的字符序列,就像这篇文章: Tesseract OCR: is it possible to force a specific pattern?

我已经尝试在 Tesseract 中将 bazaar 匹配模式与模式 \d\d\d\A\A 匹配,并且 OCR 仍然可以识别其他不匹配的单词。

我尝试使用“tessedit_char_whitelist”参数,但无法选择字符的位置。

  • 我启动命令:tesseract image.jpg result -l eng bazaar 我有这个消息:

请在模式的开头提供至少 4 个具体字符

无效的用户模式\A\A\d\d\d

Tesseract Open Source OCR Engine v3.01 with Leptonica

  • 图片.jpg :

  • 结果:

      AB123
      ABC12
      A1234
      12345
      ABCD1
    

所以错了,我只是想捕捉序列“AB123”。

有人能告诉我为什么我的用户模式文件中的正则表达式无效吗?配置方面,我严格按照bazaar教程进行。

【问题讨论】:

  • 我相信这个错误:请在模式的开头提供至少 4 个具体字符 几乎可以解释自己。这可能是您使用的任何限制。也可以试试\w\w\d\d\d\A 并不是你想要的所有“字符”。试试看here
  • 我试过\w\w\d\d\d,但我有同样的错误:请在模式的开头提供至少4个具体字符无效的用户模式\w\w\d\d\d。
  • 我在我的模式中添加了 4 个具体字符:TEST\w\w\d\d\d 并用 TESTAB123 TESTABC12 等字样进行了测试...我没有更多错误 请在以下位置提供至少 4 个具体字符模式的开头,但我仍然有 无效的用户模式 ​​TEST\w\w\d\d\d。我不明白为什么它无效
  • 你试过[A-Z][A-Z][0-9][0-9][0-9]吗?你是在/path/to/eng.user-patterns 中定义的吗? /path/to/configs/bazaar 是否包含user_patterns_suffix user-patterns?只是猜测......
  • 这个功能很可能不再起作用了。 github.com/tesseract-ocr/tesseract/issues/960

标签: regex ocr tesseract


【解决方案1】:

尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

这应该只包含 2 个字母字符和 3 个数字。

您之前匹配所有内容的原因是因为 \w 是字母数字。

【讨论】:

    猜你喜欢
    • 2016-04-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-01-29
    • 1970-01-01
    • 2015-09-10
    • 2013-07-17
    • 2017-11-03
    相关资源
    最近更新 更多