【问题标题】:Parsing and analysing the Receipts using OCR使用 OCR 解析和分析收据
【发布时间】:2017-03-05 11:27:27
【问题描述】:

我正在做一个项目,可以使用 OCR 读取收据并对其进行解析以获取商家名称、日期、金额等重要信息。我正在使用谷歌提供的 vision API 来解析图像并以 JSON 格式从中获取文本。现在我想进入下一步,我可以解析文本并尝试通过它的位置或表达式来识别信息。现在我可以从简单的货币中提取金额,然后是数字字符串。从这一点开始,我应该在哪里寻找分析文本以提取任何信息(尝试开发一个可以从任何类型的收据中提取信息的系统)。即使是很小的领先优势也会帮助我前进。

谢谢。

【问题讨论】:

    标签: parsing ocr


    【解决方案1】:

    我开始通过查找“日期”、“金额”、“总计”、“卢比”等标记从返回的文本格式中提取信息。我开发了一种算法,将发现的不同数字排列为实际数量。此外,我通过删除 ("the","in" , "welcome" ) 等标记获得了商家名称,在大多数情况下,该名称位于收据的顶部。

    【讨论】:

    • 目前,我也在处理这个案子。你能解释一下你的排名算法吗? @桑迪
    • 嗨@DharmaSaputra,我正在使用字符串的正则表达式来检查它是否形成数量。与“Total”、“amount”等关键词最接近的字符串被赋予更高的排名。
    猜你喜欢
    • 2013-07-16
    • 1970-01-01
    • 1970-01-01
    • 2013-01-02
    • 1970-01-01
    • 1970-01-01
    • 2020-04-07
    • 2011-06-26
    • 1970-01-01
    相关资源
    最近更新 更多