【问题标题】:How to read text from image file [duplicate]如何从图像文件中读取文本[重复]
【发布时间】:2015-05-20 12:40:25
【问题描述】:

我想从图像(扫描副本)中搜索一个单词,从图像中检索值,突出显示位置。是否有任何 API 或库可用于处理图像。我正在使用 Swing 来显示图像。

【问题讨论】:

  • 要使用的搜索词是 OCR 或 Optical Character Recognition
  • 首先您必须使用 OCR 引擎处理图像以将其转换为 pdf 或 doc。之后你就可以在上面搜索文字了。

标签: java swing


【解决方案1】:

您需要一些东西来将像素转换为字符。那是一个提供 OCR 的程序。

请记住,您使用的任何程序都会提供其认为的角色的最佳近似值。虽然技术已经有了很大改进,但仍有许多字体、足够的噪音和各种其他混杂因素可能导致错误输入(字符不是您认为的那样)。也存在输入无法映射到字符的情况。防御性地编写您的软件来处理这两种情况,因为这应该被视为“未经验证的输入”。

【讨论】:

    【解决方案2】:

    查看“tesseract”。它不是 Java,可用于大多数开源平台,您可以通过 System.exec() 从 java 调用命令行程序

    https://code.google.com/p/tesseract-ocr/

    如果图像格式正确,它的识别率甚至优于许多商业 OCR 软件产品。

    【讨论】:

      猜你喜欢
      • 2013-03-23
      • 2010-11-29
      • 2012-11-08
      • 2013-08-11
      • 1970-01-01
      • 2018-05-14
      • 2020-05-18
      • 1970-01-01
      相关资源
      最近更新 更多