【问题标题】:Tesseract SetVariable tessedit_char_whitelist in another languageTesseract SetVariable tessedit_char_whitelist 用另一种语言
【发布时间】:2013-04-23 22:54:02
【问题描述】:

Tesseract setVariable 白名单适用于英语,例如我用它来识别图像中的数字和字母(不包括特殊字符 &*^%!等)

_ocr.SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");

但我不能对泰语做同样的事情

_ocr.SetVariable("tessedit_char_whitelist","0123456789กขคงจฉ");

有什么不同的原则吗?因为这不起作用。我在输出中只收到数字,而不是所有确定的字符,tesseract 忽略了我放入白名单的所有泰文字母。

如何正确传递这个变量?

【问题讨论】:

    标签: ocr tesseract whitelist


    【解决方案1】:

    您可能需要先使用泰语的语言包...请参阅此处的下载列表https://code.google.com/p/tesseract-ocr/downloads/list

    那么您需要在代码中将“eng”替换为“tha”,以使用新的语言数据进行 OCR

    【讨论】:

      猜你喜欢
      • 2013-02-03
      • 1970-01-01
      • 2014-11-04
      • 2011-01-04
      • 2022-01-05
      • 1970-01-01
      • 2014-08-14
      • 2014-03-12
      • 1970-01-01
      相关资源
      最近更新 更多