【发布时间】:2018-04-18 04:55:00
【问题描述】:
我一直在从 TMS-like 服务器下载图块,其中显示了一些带有地理数据的“谷歌图块”。这些数据是法国的乡镇,根据地图的图例设置了一些特定的颜色。
我编写了一个算法,主要使用 PIL 来处理图块(作为图片),然后再将它们呈现给 tesseract(使用 pytesseract)。最后,知道了瓦片的位置(然后知道哪些乡镇可能在该区域内),我使用fuzzywuzzy process.extractBests 来尝试识别找到了哪个乡镇。
到目前为止,一些没有处理任何来自 tesseract 的结果的图片对我来说似乎还不错(虽然它并不完美,但你可以清楚地阅读法语名称“Sainte Honorine de Ducy”) :
我应该准确地说,在这种情况下,原始图块大约为 1500x3000 像素(我已经扩展了图块的大小)。
我还修改了 pytesseract 以传递文档中提到的“集市”关键字以及包含该地区乡镇的自定义“用户词”。也就是说,我只能在tesseract 1 documentation 中找到“集市”参考,没有比最新文档中的链接更好的了。事实上,我似乎记得某处有一篇文章说它是文档中的一个错误......不管它的价值是什么,它似乎并没有改变这里的结果。
你有什么建议吗?尤其是,您认为图片的质量是否足以期待可靠的结果?
我对使用这些特殊字体自己训练 tesseract 几乎一无所知。考虑到这一点(而且我不管理数据源,我什至不知道使用什么字体......),我希望你可能有比采取这种(巨大)飞跃更好的建议......
PS:我知道我可能不应该在没有任何代码的情况下发布这个问题,但我更需要在这里获得全球指导......无论如何我都会发布任何所需的代码!
【问题讨论】:
标签: tesseract python-tesseract