【发布时间】:2017-03-14 10:38:10
【问题描述】:
我正在 python 中为 OCR 进行图像预处理。我将pdf转换为二进制图像。我得到的输出是这样的
我希望输出是这样的
知道该怎么做吗?
【问题讨论】:
-
使用像 canny 这样的边缘检测器。
-
我试过精明。没用
标签: python-3.x ocr
我正在 python 中为 OCR 进行图像预处理。我将pdf转换为二进制图像。我得到的输出是这样的
我希望输出是这样的
知道该怎么做吗?
【问题讨论】:
标签: python-3.x ocr
您必须使用 Tesseract 库从给定图像中提取文本。
我使用的是窗口系统,所以我从位置https://sourceforge.net/projects/tesseract-ocr-alt/files/下载了它。
假设您已将其安装在位置“E:\w\Tesseract-OCR”
然后将您的图像放在同一位置。让我们将您的图像称为 question.png 现在转到命令提示符并给出命令,
E:\w\Tesseract-OCR>tesseract.exe question.png answer.txt
其中 answer.txt 是 Tesseract 将创建的文本文件,您可以使用任何其他名称代替 answer.txt 并且 question.txt 是您的文件。
一旦命令成功执行,检查 answer.txt 中的输出。
如果是您的图像,我会得到以下输出。
投资类型:客户所有
系统信息
火三 视频一]
所以在这种情况下,它只能正确识别文本。
【讨论】: