【问题标题】:Tesseract training for a new font新字体的 Tesseract 训练
【发布时间】:2017-05-08 19:26:36
【问题描述】:

我还是 Tesseract OCR 的新手,在我的脚本中使用它后,我发现我尝试从中提取文本的图像的错误率相对较高。我遇到了 Tesseract 培训,据说可以降低您使用的特定字体的错误率。我遇到了一个网站 (http://ocr7.com/),这是一个由 Anyline 提供支持的工具,可以对您指定的字体进行所有培训。所以我收到了一个 .traineddata 文件,但我不太确定如何处理它。任何人都可以解释我必须对这个文件做什么才能让它工作吗?或者我应该只是学习如何以手动方式进行 Tesseract 训练,根据 Anyline 网站,这可能需要一天的工作。提前致谢。

【问题讨论】:

  • @EricGopak 现在您的链接重定向到 anyline.com

标签: ocr tesseract


【解决方案1】:

对于仍将阅读本文的任何人,您可以使用此工具获取所需字体的训练数据文件。之后,将traineddata 文件移动到您的tessdata 文件夹中。要将 tesseract 与 Python 或任何其他语言(我认为?)中的新字体一起使用,请将 lang = "Font" 作为 image_to_string 函数中的第二个参数。它显着提高了准确性,但仍然会犯错误。或者您可以通过以下指南手动学习如何为新字体训练 tesseract:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/

【讨论】:

  • 您好,您知道如何为培训创建字体文件吗?例如,如果我有几个设备想要 OCR 其序列号,我如何为它们创建字体文件,以便训练 Tesseract?
  • @Joshua, this question 可能会对此有所帮助。或者只是搜索。
  • 我系统上的tessdata在/usr/share/tesseract-ocr/VERSION/tessdata/
【解决方案2】:

我制作了一个视频教程,解释了最新版本的 Tesseract(LSTM 模型)的过程,希望对您有所帮助。 https://www.youtube.com/watch?v=TpD76k2HYms

【讨论】:

    【解决方案3】:

    如果你想用新字体训练 tesseract,然后用你想要的字体生成 .traineddata 文件。要生成 .traineddata,首先您需要 .tiff 文件和 .box 文件。您可以使用jTessBoxEditor 创建这些文件。 jBossTextEditor 的教程是here。在制作 .tiff 文件时,您可以设置训练 tesseract 的字体。您可以使用 jTessBoxEditor 生成 .traineddata 或 serak-tesseract-trainer 也可以。我两者都用过,我想说 jTessBoxEditor 非常适合生成 tiff 和 box 文件,而训练 tesseract 则使用 serak。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-20
      • 1970-01-01
      • 2017-09-12
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多