【问题标题】:Detecting Bangla characters using pytesseract使用 pytesseract 检测孟加拉语字符
【发布时间】:2021-11-09 15:11:57
【问题描述】:

我正在尝试使用 Python 从孟加拉车牌图像中提取 detect Bangla characters,因此我决定使用 pytesseract。为此,我使用了以下代码:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
text = pytesseract.image_to_string(Image.open('input.png'),lang="ben")
print(text)

问题是当我打印时,它显示为空输出。

当我尝试将其冻结在文本中时,它显示如下:

示例图片:(Link)

预期输出(应该类似于或应该有点相关):

ঢাকামেট্রোহ

৪৫২৩০৭

P.S:我在安装 Tesseract-OCR-64 时下载了孟加拉语数据,我正在尝试在 VS Code 中运行它。

谁能帮我解决这个问题或告诉我如何解决这个问题?

【问题讨论】:

    标签: python python-tesseract


    【解决方案1】:

    这个问题的解决方法是:

    您需要分割所有字符(如果需要,您可以采用任何方法,可以是深度学习或图像处理)并仅向 PyTesseract 提供字符。 (只有清晰的照片)

    原因:它可以从清晰且相当可接受的分辨率的图片中检测到孟加拉语。对于小尺寸图片,针对这种语言训练的模型可能要少得多。 (这很好理解)

    代码:

    ### any deep learning approach or any image processing approach here
    
    # load the segmented character
    
    import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
    character = pytesseract.image_to_string(Image.open('char.png'),lang="ben")
    print(character)
    

    【讨论】:

      猜你喜欢
      • 2017-03-16
      • 2011-09-24
      • 2019-09-23
      • 2021-12-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-07-31
      相关资源
      最近更新 更多