【发布时间】:2018-07-03 21:54:59
【问题描述】:
我有一个包含扫描文档的 PDF,我应该在其中阅读其中的某些部分。我已经用 Google Cloud OCR 完成了它,但我只是注意到它可能不够用,因为我将超过每月配额(1k 个请求/月),所以我改用 Tessaract。
该项目是在 Windows 和 Java 中完成的,但目前我正在使用 linux 进行一些测试。
我没有上传我的原始图像,也没有上传它们,因为我不确定它是否包含敏感信息,而是来自互联网的一些非常相似的图像。
我已经读到,我可以帮助改进 Tessaract,以便在对原始图像进行一些先前的工作时获得更好的质量(使用 TextCleaner?)。我想知道如何在 windows/java 环境中做这种事情,最重要的是,如何成功消除桌子上的深色背景,如果可能的话,消除桌子的水平线和垂直线无济于事在 OCR 期间完全没有。
【问题讨论】:
-
你能改进 OCR 吗?
-
我不是。我尝试训练 Tessaract,还尝试了一些名为 ocropy 的库,但没有成功。我使用 google ocr 获得了最好的结果,但并不符合我的预期
标签: java image-processing ocr tesseract