【问题标题】:Extract text from image in java using tika library使用 tika 库从 java 中的图像中提取文本
【发布时间】:2016-08-08 08:19:16
【问题描述】:

我需要从图像中提取文本,所以我发现 OCR 库很少

  1. 苔丝4j

这没有奏效,所以我转向 apache tika。

在 apacke tika 中,我尝试了 ImageParser 和 JpegParser 。它正在提供文件信息,但未在我的图像文件中提供文本。

【问题讨论】:

  • try reading the Apache Tika documentation on performing OCR了吗?如果是,你在哪里卡住了?如果不是为什么不呢?当你这样做时会发生什么?
  • 是的,我阅读了 tika 文档。代码设置工作正常,但 Jpeg 解析器从一些图像返回文本,而不是从我必须提取的图像返回。

标签: java ocr apache-tika


【解决方案1】:

您也可以从命令行运行 tika。仅在要对其执行 OCR 的图像上运行它:

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika 在内部使用 tesseract 来执行 OCR。所以你应该在你的 PATH 上安装它。

【讨论】:

    【解决方案2】:

    对于图像处理Tessaract是最好的api,它与java一起提供了一些方法,尝试一次。您可以找到更多详情here

    【讨论】:

    • 我在 linux 上使用 tessaract。它能够从图像中提取文本,但它缺少一些字符,而不是一些字符,它被认为是特殊字符。
    • 使用pretius.com/…中所述的字符白名单提高准确性
    猜你喜欢
    • 2011-10-03
    • 2018-01-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多