如何防止 Tesseract 在单词中插入额外的空格？答案

【问题标题】：How to keep Tesseract from inserting extra whitespace in words?如何防止 Tesseract 在单词中插入额外的空格？
【发布时间】：2017-11-15 17:42:44
【问题描述】：

我已经在Tesseract forum 上问过这个问题

通过 Tesseract（和 ImageMagick），我试图找出这个文本 PDF file

这是我正在处理的 PDF 部分，它是第 7 行 PDF：

在本节中，Tesseract 在尝试识别时遇到了问题字符串 CONSTRUCTORA.

它看到 CO NSTRUCTO RA

应该会看到CONSTRUCTORA

谁能建议任何可能的解决方法？

这是命令行序列：

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt

这些是软件版本：

~% tesseract --version 
tesseract 3.05.01 
leptonica-1.74.4 
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : 
libtiff 4.0.3 : zlib 1.2.8 
~% convert --version 
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC 
Features: OpenMP

【问题讨论】：

好吧，图像中的字距调整很糟糕，所以这一点也不意外。如果它一直是这样，那么在弄乱各种设置时可能是值得的。一个猜测是在这里查看 tosp_min_sane_kn_sp 的设置github.com/naptha/tesseract.js/blob/master/docs/… 我没有太多使用 tesseract 设置的经验。只不过知道它们是为 sh_t 记录的。您可能会很幸运，或者您可能会找到有关该主题的教程，或者一些带有 exp 的旧外壳，或者一本书。祝你好运。
对于这个特定的 PDF、字符串和软件版本，通过设置 tosp_min_sane_kn_sp=2.8 来解决问题。默认值似乎是 1.5。感谢您的建议！
嘿！你真幸运！您可以在下面提供代码更改的答案以结束此问题。这可能看起来很奇怪，但这就是我们处理提问者提出解决方案的情况的方式。我认为这可能对未来的一些人有用。

标签： imagemagick ocr tesseract

【解决方案1】：

为了处理 PDF 文件的不规则字距，Will 建议调整文档 https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md 的 tosp_min_sane_kn_sp 周围的参数

设置tosp_min_sane_kn_sp=2.8 解决了问题中描述的问题。

新的 Tesseract 调用如下：

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

tosp_min_sane_kn_sp 的默认值似乎是 1.5。到目前为止，我只测试了大于 1.5 的值。

【讨论】：