【发布时间】:2011-05-11 16:35:56
【问题描述】:
对于识别屏幕截图中的所有字符,您有什么建议?截图非常清晰(只有白色背景上的黑色文本),我也可以为文本选择任何标准字体(安装在 Windows 上)。我尝试了一些 OCR 方法(Tesseract 等),但它在识别某些字符时出错(这让我感到困惑,因为文本没有丝毫噪音,而且字体是一些最常见的字体 - Courier New、Fixedsys 等),我需要它是 100% 准确的。是否有一些库可用于此特定目的,一些模式识别或其他什么?或者我应该使用一些等宽字体获取屏幕截图,并遍历图像移动到右侧 +font_size 像素,然后将捕获的内容与相同大小的字母和相同字体数量的内存表示进行比较?解决这个问题的最佳方法是什么?非常感谢您。
更新:通过使用等宽字体 (Courier New) 训练 Tesseract,我终于设法获得了 100% 的准确度,我正在截屏。希望对未来的人有所帮助:)
【问题讨论】:
-
OCR 永远不会 100% 准确。这主要取决于您使用的图像/文档的质量。
标签: fonts ocr tesseract pattern-recognition