【问题标题】:OCR library for photos, not scanned images照片的 OCR 库,而不是扫描的图像
【发布时间】:2010-03-31 18:14:13
【问题描述】:

有人知道可以处理彩色照片(而不是扫描页面)的 OCR 库吗?

在我看来,大多数图书馆都处理黑白图像,并希望它们来自扫描仪。我需要一些可以为广告牌拍摄彩色照片并从中提取文本的东西。

我目前正在考虑将这些图像转换为黑白 tiff,并将它们提供给 this question 中提到的库之一,但我持怀疑态度...这些库可能是围绕图像是扫描文档的假设而设计的,或扫描的书页。我需要可以在任何方向、不同大小、奇怪的对齐方式等上处理文本的东西。基本上可以从这些图像中提取最多文本的东西——它不必 100% 准确。

有什么想法吗?

【问题讨论】:

  • 查看 HAL 9000 - 好产品,但有一些注意事项。 ;-)
  • 大声笑我在得到参考之前用谷歌搜索了它:)
  • @Paul Sasik:不幸的是,它的安装基数很少。还请记住,带有这些警告的一个单元将在今年进行检索。 (在严重晒伤后停产)
  • 很高兴你能从中受益!不过说真的,您对 OCRing 有一些苛刻的要求。即使是最好的 OCR 应用程序也几乎无法处理干净的白色背景上的纯黑色文本,而且永远不会 100% 准确。还有一线希望:您可能有资格获得风滚草徽章!
  • @Paul,好吧,这不是我的第一次……这是一种可悲的状况。我上一次涉足 OCR 是在 1999 年,但它似乎并没有取得那么大的进步。把东西转换成黑白 tiff 让我很沮丧。所有这些信息都丢失了,未被使用。 OCR 系统似乎添加了很多非 OCR 功能,但就实际的 OCR 功能而言,我看不到过去十年有什么令人惊奇的事情。

标签: ocr


【解决方案1】:

您可以使用 unpaper 进行对齐。用于 OCR 的 gocr。通常,获取颜色输入的软件会在处理之前将其转换为灰度 - 这只是人类执行或软件自己执行的预处理步骤。

【讨论】:

  • 如果人类在识别字符模式之前总是转换为灰度,那么没有人会通过色盲测试.. :)
猜你喜欢
  • 2020-10-04
  • 2020-10-07
  • 1970-01-01
  • 1970-01-01
  • 2018-08-09
  • 2021-08-12
  • 2021-03-19
  • 1970-01-01
相关资源
最近更新 更多