【发布时间】:2012-02-16 16:56:33
【问题描述】:
我需要从 TIFF 文件中提取/裁剪中间的标识 (BEAVER),如下所示:http://i41.tinypic.com/2i7rbie.jpg
然后我需要自动化这个过程,这样它就可以重复大约 900 万次......
我的猜测是我必须使用一些 OCR 软件。但是这样的软件是否有可能“裁剪从该点以下开始并在该点以上结束的任何内容”?
想法?
【问题讨论】:
我需要从 TIFF 文件中提取/裁剪中间的标识 (BEAVER),如下所示:http://i41.tinypic.com/2i7rbie.jpg
然后我需要自动化这个过程,这样它就可以重复大约 900 万次......
我的猜测是我必须使用一些 OCR 软件。但是这样的软件是否有可能“裁剪从该点以下开始并在该点以上结束的任何内容”?
想法?
【问题讨论】:
通常 OCR 软件仅从图像中提取文本并将其转换为某些特定于文本的格式。它不做作物。但是,您可以使用 OCR 技术来完成您的任务。我建议如下:
真正的挑战在于您要处理的文本量。在定义“智能规则”时必须非常小心,以确保它们不会提供误报,并始终将可疑图像发送到单独的队列,稍后您将手动查看和更新规则。
一般来说可能是这样的:
您很可能会遇到一些奇怪的图像,这些图像要么与现有规则相矛盾,要么就是错误的。并非总是必须更新规则以适应它。在您的 900 万个收藏中,可能只有十几个这样的图像。将它们留在异常队列中进行手动处理可能会更好,并且不要危及您的魔法规则的稳定性。
【讨论】: