【发布时间】:2018-03-14 20:42:16
【问题描述】:
我正在使用 Google vision api 对收据图像执行文本识别。我返回了一些不错的结果,但返回的格式非常不可靠。如果文本之间的间隔很大,则读数将打印下面的行而不是旁边的行。
例如,使用以下Recipt Image 我得到以下响应:
4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25
1x Grosses Wasser
1x Vegetarische Varia
1x Gyros
1x Baby Kalamari Gefu
2x Gyros Folie
1x Schafskäse Ofen
1x Bifteki Metaxa
1x Schweinefilet Meta
1x St ifado
1x Tee
2,50 1
2,40 1
9,90 1
8,90 1
12,90
a 9,9019,80 1
6,90 1
11,90 1
13,90 1
14,90 1
2,10 1
开始时如预期的那样良好,但在尝试将价格与文本等联系起来时变得相当无用。理想的响应如下:
4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25 2,50 1
1x Grosses Wasser 2,40 1
1x Vegetarische Varia 9,90 1
1x Gyros 8,90 1
1x Baby Kalamari Gefu 12,90 1
2x Gyros Folie a 9,9019,80 1
1x Schafskäse Ofen 6,90 1
1x Bifteki Metaxa 11,90 1
1x Schweinefilet Meta 13,90 1
1x St ifado 14,90 1
1x Tee 2,10 1
或接近。
是否可以将格式请求添加到 api 以获得不同的响应?我在使用 tessereact 时取得了成功,您可以在其中更改输出格式以实现此结果,并且想知道视觉 api 是否有类似的东西。
我知道 api 返回可以使用的字母坐标,但我希望不必进入那种深度。
【问题讨论】: