【发布时间】:2017-11-15 17:42:44
【问题描述】:
我已经在Tesseract forum 上问过这个问题
通过 Tesseract(和 ImageMagick),我试图找出这个文本 PDF file
这是我正在处理的 PDF 部分,它是第 7 行 PDF:
在本节中,Tesseract 在尝试识别时遇到了问题 字符串 CONSTRUCTORA.
它看到 CO NSTRUCTO RA
应该会看到CONSTRUCTORA
谁能建议任何可能的解决方法?
这是命令行序列:
convert -density 600 my_pdf.pdf tmp.tif
tesseract -l spa tmp.tif stdout > tmp.txt
这些是软件版本:
~% tesseract --version
tesseract 3.05.01
leptonica-1.74.4
libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 :
libtiff 4.0.3 : zlib 1.2.8
~% convert --version
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
【问题讨论】:
-
好吧,图像中的字距调整很糟糕,所以这一点也不意外。如果它一直是这样,那么在弄乱各种设置时可能是值得的。一个猜测是在这里查看 tosp_min_sane_kn_sp 的设置github.com/naptha/tesseract.js/blob/master/docs/… 我没有太多使用 tesseract 设置的经验。只不过知道它们是为 sh_t 记录的。您可能会很幸运,或者您可能会找到有关该主题的教程,或者一些带有 exp 的旧外壳,或者一本书。祝你好运。
-
对于这个特定的 PDF、字符串和软件版本,通过设置
tosp_min_sane_kn_sp=2.8来解决问题。默认值似乎是 1.5。感谢您的建议! -
嘿!你真幸运!您可以在下面提供代码更改的答案以结束此问题。这可能看起来很奇怪,但这就是我们处理提问者提出解决方案的情况的方式。我认为这可能对未来的一些人有用。
标签: imagemagick ocr tesseract