【发布时间】:2015-10-30 16:50:12
【问题描述】:
我想用 Tesseract 读取一个特定的字符序列,就像这篇文章: Tesseract OCR: is it possible to force a specific pattern?
我已经尝试在 Tesseract 中将 bazaar 匹配模式与模式 \d\d\d\A\A 匹配,并且 OCR 仍然可以识别其他不匹配的单词。
我尝试使用“tessedit_char_whitelist”参数,但无法选择字符的位置。
- 我启动命令:
tesseract image.jpg result -l eng bazaar我有这个消息:
请在模式的开头提供至少 4 个具体字符
无效的用户模式
\A\A\d\d\d
Tesseract Open Source OCR Engine v3.01 with Leptonica
- 图片.jpg :
-
结果:
AB123 ABC12 A1234 12345 ABCD1
所以错了,我只是想捕捉序列“AB123”。
有人能告诉我为什么我的用户模式文件中的正则表达式无效吗?配置方面,我严格按照bazaar教程进行。
【问题讨论】:
-
我相信这个错误:请在模式的开头提供至少 4 个具体字符 几乎可以解释自己。这可能是您使用的任何限制。也可以试试
\w\w\d\d\d,\A并不是你想要的所有“字符”。试试看here。 -
我试过
\w\w\d\d\d,但我有同样的错误:请在模式的开头提供至少4个具体字符无效的用户模式\w\w\d\d\d。 -
我在我的模式中添加了 4 个具体字符:
TEST\w\w\d\d\d并用TESTAB123 TESTABC12等字样进行了测试...我没有更多错误 请在以下位置提供至少 4 个具体字符模式的开头,但我仍然有 无效的用户模式 TEST\w\w\d\d\d。我不明白为什么它无效 -
你试过
[A-Z][A-Z][0-9][0-9][0-9]吗?你是在/path/to/eng.user-patterns中定义的吗? /path/to/configs/bazaar 是否包含user_patterns_suffix user-patterns?只是猜测...... -
这个功能很可能不再起作用了。 github.com/tesseract-ocr/tesseract/issues/960