【问题标题】:How to keep Tesseract from inserting extra whitespace in words?如何防止 Tesseract 在单词中插入额外的空格?
【发布时间】:2017-11-15 17:42:44
【问题描述】:

我已经在Tesseract forum 上问过这个问题

通过 Tesseract(和 ImageMagick),我试图找出这个文本 PDF file

这是我正在处理的 PDF 部分,它是第 7 行 PDF:

在本节中,Tesseract 在尝试识别时遇到了问题 字符串 CONSTRUCTORA.

它看到 CO NSTRUCTO RA

应该会看到CONSTRUCTORA

谁能建议任何可能的解决方法?

这是命令行序列:

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt 

这些是软件版本:

~% tesseract --version 
tesseract 3.05.01 
leptonica-1.74.4 
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : 
libtiff 4.0.3 : zlib 1.2.8 
~% convert --version 
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC 
Features: OpenMP 

【问题讨论】:

  • 好吧,图像中的字距调整很糟糕,所以这一点也不意外。如果它一直是这样,那么在弄乱各种设置时可能是值得的。一个猜测是在这里查看 tosp_min_sane_kn_sp 的设置github.com/naptha/tesseract.js/blob/master/docs/… 我没有太多使用 tesseract 设置的经验。只不过知道它们是为 sh_t 记录的。您可能会很幸运,或者您可能会找到有关该主题的教程,或者一些带有 exp 的旧外壳,或者一本书。祝你好运。
  • 对于这个特定的 PDF、字符串和软件版本,通过设置 tosp_min_sane_kn_sp=2.8 来解决问题。默认值似乎是 1.5。感谢您的建议!
  • 嘿!你真幸运!您可以在下面提供代码更改的答案以结束此问题。这可能看起来很奇怪,但这就是我们处理提问者提出解决方案的情况的方式。我认为这可能对未来的一些人有用。

标签: imagemagick ocr tesseract


【解决方案1】:

为了处理 PDF 文件的不规则字距,Will 建议调整文档 https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.mdtosp_min_sane_kn_sp 周围的参数

设置tosp_min_sane_kn_sp=2.8 解决了问题中描述的问题。

新的 Tesseract 调用如下:

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp 的默认值似乎是 1.5。到目前为止,我只测试了大于 1.5 的值。

【讨论】:

    猜你喜欢
    • 2021-06-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-01
    • 1970-01-01
    • 2017-12-20
    • 1970-01-01
    • 2014-12-12
    相关资源
    最近更新 更多