【发布时间】:2025-12-17 06:05:01
【问题描述】:
我正在使用Google Vision API 从一些图片中提取文本,但是,我一直在尝试提高结果的准确性(置信度),但没有成功。
每次我从原始图像更改图像时,我都会失去检测某些字符的准确性。
我已将问题隔离为不同的单词有多种颜色,例如可以看出红色单词比其他单词更频繁地出现错误结果。
例子:
灰度或黑白图像的一些变化
我可以尝试哪些想法来使这项工作更好,特别是将文本颜色更改为统一颜色或仅在白色背景上显示黑色,因为大多数算法都期望这样做?
我已经尝试过的一些想法,还有一些阈值。
dimg = ImageOps.grayscale(im)
cimg = ImageOps.invert(dimg)
contrast = ImageEnhance.Contrast(dimg)
eimg = contrast.enhance(1)
sharp = ImageEnhance.Sharpness(dimg)
eimg = sharp.enhance(1)
【问题讨论】:
-
为什么与白色文本相比,红色文本以及部分绿色文本变得模糊?
-
好问题@WalterTross,这正是我想要弄清楚的。尽管发生这种情况是有道理的,因为玩家名称具有不同的颜色深浅,因此当您将其二值化时,其中一些变为白色,而另一些变为黑色。主要问题是如何找到一个好的阈值,使所有文本都变成黑色
-
源图质量真的这么差吗?
-
这么好的问题 - 非常热门!
标签: python python-imaging-library ocr google-vision