【发布时间】:2017-11-06 13:58:06
【问题描述】:
我正在尝试在 Python 中使用 Tesseract-OCR 和 OpenCV 检测图像(jpg 文件)的文本部分。图像的文本部分是土耳其语,因此我使用的是 Tesseract-OCR 文件中的“土耳其语训练数据 (tur)”。在使用 tesseract 之前,我已经应用了膨胀和腐蚀来消除噪音。
问题是,即使可以检测到特定区域的某些字符,但检测大多不成功,无法检测到土耳其语字符。你知道任何方法或者你有什么建议来获得更多的成功吗?以下是我的代码:
import pytesseract
from PIL import Image
import cv2
img= cv2.imread('C:\Users\gulsa\Desktop\Tesseract-OCR\alm98_2.jpg')
img = Image.open('alm98_2.jpg')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-
OCR/tesseract'
tex = pytesseract.image_to_string(Image.open('alm98_2.jpg'),lang='tur')
print(tex)
提前谢谢你!
【问题讨论】:
-
您是否尝试过 tesseract 常见问题解答中“提高质量”部分中列出的内容? (github.com/tesseract-ocr/tesseract/wiki/ImproveQuality)
-
这取决于图像。文字是手写的吗?图像中有噪点吗?采光好吗?
-
我已经应用了二值化、膨胀和腐蚀来去除噪音,但结果是一样的。文字不是手写的,是印刷的,清晰易读,黑底白字。
-
您可以在应用所有预处理(二值化、膨胀等)后发布您的图像吗?另外通过检测,您的意思是 tesseract 不将字符识别为土耳其语(但识别为其他字符)还是根本看不到任何内容?
-
我已附上我的图片。它可以看到字符,但对于大多数字符,它不能正确检测到它们。它充满了错误。
标签: python-2.7 opencv tesseract python-tesseract text-recognition