【发布时间】:2015-09-29 11:38:32
【问题描述】:
我尝试改进 OpenSource OCR 软件的结果。我正在使用 tessaract,因为我发现它仍然比 gocr 产生更好的结果,但是如果输入质量不好,它会出现很大的问题。因此,我尝试使用在互联网上找到的各种工具对图像进行预处理:
- 拆纸
- Fred 的 ImageMagick 脚本:TextCLEANER
- 手动使用 GIMP
但是我无法用这个糟糕的测试文档获得好的结果:(真的只是为了测试,我不需要这个文件的内容) http://9gag.com/gag/aBrG8w2/employee-handbook
这个在线服务与这个测试文档一起工作得非常好: http://www.onlineocr.net/
我想知道是否可以使用智能预处理来获得与 tesseract 类似的结果。与商业引擎相比,开源 OCR 引擎真的那么糟糕吗?甚至 google 也使用 tesseract 扫描文档,所以我期待更多...
【问题讨论】:
标签: open-source ocr tesseract