OpenCV 或 PyTesseract 可以识别字体吗答案

【问题标题】：Can OpenCV or PyTesseract recognize fontsOpenCV 或 PyTesseract 可以识别字体吗
【发布时间】：2019-06-12 16:01:03
【问题描述】：

使用以下代码，我可以读取图像中的所有文本：

import cv2
img = cv2.imread(r'/<path_to_image>/text.png')
print(pytesseract.image_to_string(img))

我想知道的是OpenCV或PyTesseract是否支持基于字体名称的文本提取？例如，如果特定文本是 Times New Roman，而其余文本是 Arial，则仅提取 Times New Roman。像这样的：

print(pytesseract.image_to_string(img, lang='font'))

【问题讨论】：

是的，tesseract 支持这一点，但您需要自己生成 tessdata 或在某个地方找到它。常见的 tessdata 文件使用多种字体进行训练，无法通过设计指定字体。
@DmitriiZ。你的说法令人困惑。 OP不问他是否不能用字体识别，但如果tesseract可以识别字体
@Martin 哦，我明白了，我被What I want to know is does OpenCV or PyTesseract support text extraction based on font name? 弄糊涂了。我的评论只回答了那部分。关于第二部分 - 不，无法仅根据字体提取文本，tesseract 将尝试从您提供的所有内容中提取文本。

【解决方案1】：

当然没有。 Tesseract 几乎无法识别 6 中的 G，而 OpenCV 是计算机视觉库。

【讨论】：