【问题标题】:Unable to read handwritten text from form using node-tesseract无法使用 node-tesseract 从表单中读取手写文本
【发布时间】:2017-03-01 08:22:44
【问题描述】:

我无法在使用 node-tesseract 时准确阅读表单。只有表单的打印文本被识别并正确返回,而手写文本则返回一些特殊字符。

我的代码是,

var options = {
            l: 'deu',
            psm: 6,
            env: {
                maxBuffer: 4096 * 4096
            }
        };
        tesseract.process('./server/images/form.jpg', options, function (err,text) {
            if (err) {
                return console.log("An error occured: ", err);
            }
            console.log("Recognized text:");
            console.log(text);
        });

我的input ------> OWNER Brian Dude output------> OW_NER ägga ] )ggé;= ‘

这里,OWNER 是这里提交的一些文本

【问题讨论】:

标签: node.js tesseract


【解决方案1】:
  1. 查看以下论文。两者都是使用 Tesseract 训练过程进行手写识别的示例。

Tesseract Training for Handwritten Digit Recognition

Training Tesseract for Roman Font Handwriting

  1. 查看官方 Tesseract 培训页面。

  2. 以下链接将带您完成培训过程,它对我帮助很大。 https://web.archive.org/web/20170820212334/http://www.resolveradiologic.com:80/blog/2013/01/15/training-tesseract

  3. 使用第三方 GUI 进行 Tesseract 训练,它会让您的生活更轻松。我推荐 tesseract4java 和 jTessBoxEditor(都适用于 OS X)

【讨论】:

    【解决方案2】:

    您可以训练 tesseract 来识别您的手写文本。 见here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-06-13
      • 1970-01-01
      • 2012-06-01
      • 1970-01-01
      • 2017-05-18
      相关资源
      最近更新 更多