【问题标题】:Image preprocessing in Python for OCRPython中用于OCR的图像预处理
【发布时间】:2017-03-14 10:38:10
【问题描述】:

我正在 python 中为 OCR 进行图像预处理。我将pdf转换为二进制图像。我得到的输出是这样的

我希望输出是这样的

知道该怎么做吗?

【问题讨论】:

  • 使用像 canny 这样的边缘检测器。
  • 我试过精明。没用

标签: python-3.x ocr


【解决方案1】:

您必须使用 Tesseract 库从给定图像中提取文本。

我使用的是窗口系统,所以我从位置https://sourceforge.net/projects/tesseract-ocr-alt/files/下载了它。

假设您已将其安装在位置“E:\w\Tesseract-OCR”

然后将您的图像放在同一位置。让我们将您的图像称为 question.png 现在转到命令提示符并给出命令,

E:\w\Tesseract-OCR>tesseract.exe question.png answer.txt

其中 answer.txt 是 Tesseract 将创建的文本文件,您可以使用任何其他名称代替 answer.txt 并且 question.txt 是您的文件。

一旦命令成功执行,检查 answer.txt 中的输出。

如果是您的图像,我会得到以下输出。

投资类型:客户所有

系统信息

火三 视频一]

所以在这种情况下,它只能正确识别文本。

【讨论】:

    猜你喜欢
    • 2016-03-10
    • 2014-10-07
    • 1970-01-01
    • 2019-01-12
    • 2018-09-22
    • 2011-05-10
    • 2014-03-30
    • 2019-10-16
    • 2020-12-29
    相关资源
    最近更新 更多