【问题标题】:Extract or crop image from within TIFF从 TIFF 中提取或裁剪图像
【发布时间】:2012-02-16 16:56:33
【问题描述】:

我需要从 TIFF 文件中提取/裁剪中间的标识 (BEAVER),如下所示:http://i41.tinypic.com/2i7rbie.jpg

然后我需要自动化这个过程,这样它就可以重复大约 900 万次......

我的猜测是我必须使用一些 OCR 软件。但是这样的软件是否有可能“裁剪从该点以下开始并在该点以上结束的任何内容”?

想法?

【问题讨论】:

    标签: extract ocr tiff crop


    【解决方案1】:

    通常 OCR 软件仅从图像中提取文本并将其转换为某些特定于文本的格式。它不做作物。但是,您可以使用 OCR 技术来完成您的任务。我建议如下:

    • OCR 整页
    • 获取已识别文本的坐标
    • 将您的魔法规则应用于识别的文本以定位要裁剪的区域:例如“应用程序填充”和“声明”句子之间的任何内容。
    • 从图像中剪切该区域并将其导出到您想要的位置。

    真正的挑战在于您要处理的文本量。在定义“智能规则”时必须非常小心,以确保它们不会提供误报,并始终将可疑图像发送到单独的队列,稍后您将手动查看和更新​​规则。

    一般来说可能是这样的:

    • 获取前 10 张图片,定义徽标检测规则,测试并查看是否一切正常
    • 然后在下一个 10 上运行,查看哪些错误已处理,哪些未处理,更新规则,重新处理这 10 个以确保现在一切正常
    • 在相同大小的新批次上重新运行它,直到它开始正常工作。
    • 然后将批次大小从 10 增加到 100,并继续使用这些批次,直到一切再次开始顺利运行
    • 然后继续以这种方式完善您的规则并增加批量大小。在某个时间点,您会达到生产速度。

    您很可能会遇到一些奇怪的图像,这些图像要么与现有规则相矛盾,要么就是错误的。并非总是必须更新规则以适应它。在您的 900 万个收藏中,可能只有十几个这样的图像。将它们留在异常队列中进行手动处理可能会更好,并且不要危及您的魔法规则的稳定性。

    【讨论】:

    • 谢谢!听起来不错的方法。后续问题:我应该改用裁剪软件吗?
    • “裁剪软件”是什么意思? Photoshop?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-08-14
    • 2016-02-06
    • 2013-04-02
    相关资源
    最近更新 更多