使用 pytesseract 检测孟加拉语字符答案

【问题标题】：Detecting Bangla characters using pytesseract使用 pytesseract 检测孟加拉语字符
【发布时间】：2021-11-09 15:11:57
【问题描述】：

我正在尝试使用 Python 从孟加拉车牌图像中提取 detect Bangla characters，因此我决定使用 pytesseract。为此，我使用了以下代码：

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
text = pytesseract.image_to_string(Image.open('input.png'),lang="ben")
print(text)

问题是当我打印时，它显示为空输出。

当我尝试将其冻结在文本中时，它显示如下：

示例图片：(Link)

预期输出（应该类似于或应该有点相关）：

ঢাকামেট্রোহ

৪৫২৩০৭

P.S：我在安装 Tesseract-OCR-64 时下载了孟加拉语数据，我正在尝试在 VS Code 中运行它。

谁能帮我解决这个问题或告诉我如何解决这个问题？

【问题讨论】：

标签： python python-tesseract

【解决方案1】：

这个问题的解决方法是：

您需要分割所有字符（如果需要，您可以采用任何方法，可以是深度学习或图像处理）并仅向 PyTesseract 提供字符。（只有清晰的照片）

原因：它可以从清晰且相当可接受的分辨率的图片中检测到孟加拉语。对于小尺寸图片，针对这种语言训练的模型可能要少得多。（这很好理解）

代码：

### any deep learning approach or any image processing approach here

# load the segmented character

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
character = pytesseract.image_to_string(Image.open('char.png'),lang="ben")
print(character)

【讨论】：