【问题标题】:Tesseract doesn't seem to work with digitsTesseract 似乎不适用于数字
【发布时间】:2018-01-11 15:25:38
【问题描述】:

我按照常见问题解答让 Tesseract 识别数字,但我得到的只是输出文件中的一堆文本,尽管我的图像中只有数字。

我的命令行如下所示:

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

有什么想法会发生什么吗?

【问题讨论】:

  • 你在使用带有 LSTM 的 tesseract 4.0 吗?对于该版本,您将需要使用不同的 tessdata 文件(仅在数字上训练)
  • 我刚刚从他们的网站下载了最新版本,适用于 Windows。
  • 你下载的最新版本是4.0吗?
  • 是的,来自这个链接:github.com/tesseract-ocr/tesseract/wiki/…
  • 4.0-with-LSTM#400-alpha-for-windows

标签: tesseract


【解决方案1】:

正如tesseract github issue 中所述,您不能使用 tesseract 4.0 LSTM 将字符列入黑名单或白名单,相反,您应该使用您期望在图像上出现的字符来训练 LSTM。

感谢Shreeshrii,您可以从here 尝试他的“实验”数字训练数据

请注意,Tesseract 4.0 仍处于 alpha 阶段,如果您愿意 - 您仍然可以使用 3.* 版本的 tesseract 来支持您的需求。 Tesseract v 3.4 tessdata 位于here,windows 库可以从here下载

【讨论】:

    猜你喜欢
    • 2020-11-24
    • 1970-01-01
    • 1970-01-01
    • 2021-11-18
    • 2020-04-04
    • 2023-04-06
    • 2017-08-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多