新字体的 Tesseract 训练答案

【问题标题】：Tesseract training for a new font新字体的 Tesseract 训练
【发布时间】：2017-05-08 19:26:36
【问题描述】：

我还是 Tesseract OCR 的新手，在我的脚本中使用它后，我发现我尝试从中提取文本的图像的错误率相对较高。我遇到了 Tesseract 培训，据说可以降低您使用的特定字体的错误率。我遇到了一个网站 (http://ocr7.com/)，这是一个由 Anyline 提供支持的工具，可以对您指定的字体进行所有培训。所以我收到了一个 .traineddata 文件，但我不太确定如何处理它。任何人都可以解释我必须对这个文件做什么才能让它工作吗？或者我应该只是学习如何以手动方式进行 Tesseract 训练，根据 Anyline 网站，这可能需要一天的工作。提前致谢。

【问题讨论】：

@EricGopak 现在您的链接重定向到 anyline.com

标签： ocr tesseract

【解决方案1】：

对于仍将阅读本文的任何人，您可以使用此工具获取所需字体的训练数据文件。之后，将traineddata 文件移动到您的tessdata 文件夹中。要将 tesseract 与 Python 或任何其他语言（我认为？）中的新字体一起使用，请将 lang = "Font" 作为 image_to_string 函数中的第二个参数。它显着提高了准确性，但仍然会犯错误。或者您可以通过以下指南手动学习如何为新字体训练 tesseract：http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/。

【讨论】：

您好，您知道如何为培训创建字体文件吗？例如，如果我有几个设备想要 OCR 其序列号，我如何为它们创建字体文件，以便训练 Tesseract？
@Joshua, this question 可能会对此有所帮助。或者只是搜索。
我系统上的tessdata在/usr/share/tesseract-ocr/VERSION/tessdata/

【解决方案2】：

我制作了一个视频教程，解释了最新版本的 Tesseract（LSTM 模型）的过程，希望对您有所帮助。 https://www.youtube.com/watch?v=TpD76k2HYms

【讨论】：

【解决方案3】：

如果你想用新字体训练 tesseract，然后用你想要的字体生成 .traineddata 文件。要生成 .traineddata，首先您需要 .tiff 文件和 .box 文件。您可以使用jTessBoxEditor 创建这些文件。 jBossTextEditor 的教程是here。在制作 .tiff 文件时，您可以设置训练 tesseract 的字体。您可以使用 jTessBoxEditor 生成 .traineddata 或 serak-tesseract-trainer 也可以。我两者都用过，我想说 jTessBoxEditor 非常适合生成 tiff 和 box 文件，而训练 tesseract 则使用 serak。

【讨论】：