【问题标题】:Can I get bold text from image using Tesseract for Java [closed]我可以使用 Tesseract for Java 从图像中获取粗体文本吗?
【发布时间】:2021-11-18 12:37:26
【问题描述】:

我只想使用 Tesseract 和 Java 从图像中提取粗体文本。

例子:

感恩节

我需要“感恩节”作为图片中的文字。

【问题讨论】:

  • 如果你能展示你所做的任何研究以及你编写的任何代码,这将大有帮助。

标签: java tesseract


【解决方案1】:

Tesseract 不提供此信息。但可能有一些事情,你可以看看:

A) 在 Tesseract 3 中有一个元数据结果,其中包含可识别的字体。可能它不是超级可靠,但它可能适用于基本字体并检测粗体和非粗体字体。

B) 在 Tesseract 4 中,您可以导出 HOCR 输出并将其配置为在每个字符周围设置框(不确定 Tesseract 3)。我也不确定这些框有多可靠,但如果没问题,您可以使用它们来拥有第二种算法(例如小型卷积神经网络),该算法仅分类单个字符是否为粗体并删除非粗体文本从 tesseract 输出。

C) 如果您在使用 tesseract 之前有精确的线条框,您还可以考虑训练一种算法(完全卷积神经网络),该算法将线条的粗体部分分割,然后裁剪图像并仅将 tesseract 用于粗体部分。这可能是最具技术性的解决方案,但我认为它也可以工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-06-18
    • 2020-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多