【问题标题】:Tesseract OCR user patternsTesseract OCR 用户模式
【发布时间】:2016-04-06 06:26:03
【问题描述】:

有没有办法让 Tesseract 只匹配用户指定的单词或模式? manual 声称这是可能的,但我无法在互联网上找到一个有文件证明的实例,说明有人正在使用它。

这里有很多人寻求帮助的例子,因为它不起作用,并且没有一个经过验证的解决方案。

stackoverflow.com/questions/33429143/tesseract-user-pattern-is-not-applied

stackoverflow.com/questions/31874393/tesseract-ocr-force-pattern

stackoverflow.com/questions/26856349/provide-pattern-for-tesseract

stackoverflow.com/questions/22432194/tesseract-ocr-only-detect-user-words

stackoverflow.com/questions/17209919/tesseract-user-patterns

groups.google.com/forum/#!topic/tesseract-ocr/S9CIK3jOMWw

groups.google.com/forum/#!topic/tesseract-ocr/5vFqVcJmHnM

那么我们可以断定这个功能根本不起作用吗?有这方面的官方声明吗?

【问题讨论】:

  • 许多链接的 Tesseract 文档似乎已移动。 Here 是 github 上手册的链接。
  • 一年后,情况似乎仍然如此。
  • 手册链接失效
  • Repo 管理员说用户模式在 v3.02 左右出现了问题。 LSTM v4.0 可能破坏了用户模式以及字符白名单github.com/tesseract-ocr/tesseract/issues/960

标签: ocr tesseract


【解决方案1】:

Tesseract 文档网站上现在有一个示例 https://tesseract-ocr.github.io/tessdoc/APIExample-user_patterns.html [感谢 @Ravi 提供新链接]

该测试示例在 Tesseract 4.x 的 oem=1 / LSTM 模式下对我有用。

但是,我无法让它适用于任何其他示例或任何其他模式。

我没有看到任何官方声明,在撰写本文时,确实似乎该功能不起作用。

【讨论】:

  • 为什么投反对票? 3年后这一切都不是我的错。我必须删除答案吗?
  • 仍然无法使用 Windows 二进制文件使其正常工作。
猜你喜欢
  • 2015-10-30
  • 1970-01-01
  • 2014-04-21
  • 2013-01-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多