【发布时间】:2018-02-06 19:13:33
【问题描述】:
我想从账单图像中提取有用的信息。
我已经使用 OCR + pytesseract 将图像转换为文本,并根据总数、金额等特定单词提取信息。
处理各种类型的非结构化票据以提取票据的地点和金额的最佳通用方法是什么?
【问题讨论】:
-
能否提供一些图片?
-
我认为您可能已经成功提取了这张图片中的账单,但在非结构化图片中,您可以使用正则表达式匹配来根据货币符号和数字过滤账单数据。
-
是的,我正在使用正则表达式进行提取。但我的挑战是处理 OCR 无法正确转换为文本的劣质图像和徽标。
-
如果您的图像模糊,其中像素数据丢失或被遮挡,那么您将无法以任何方式获取丢失的信息。
标签: image-processing ocr pytesser