【发布时间】:2021-11-18 12:37:26
【问题描述】:
我只想使用 Tesseract 和 Java 从图像中提取粗体文本。
例子:
感恩节日
我需要“感恩节”作为图片中的文字。
【问题讨论】:
-
如果你能展示你所做的任何研究以及你编写的任何代码,这将大有帮助。
我只想使用 Tesseract 和 Java 从图像中提取粗体文本。
例子:
感恩节日
我需要“感恩节”作为图片中的文字。
【问题讨论】:
Tesseract 不提供此信息。但可能有一些事情,你可以看看:
A) 在 Tesseract 3 中有一个元数据结果,其中包含可识别的字体。可能它不是超级可靠,但它可能适用于基本字体并检测粗体和非粗体字体。
B) 在 Tesseract 4 中,您可以导出 HOCR 输出并将其配置为在每个字符周围设置框(不确定 Tesseract 3)。我也不确定这些框有多可靠,但如果没问题,您可以使用它们来拥有第二种算法(例如小型卷积神经网络),该算法仅分类单个字符是否为粗体并删除非粗体文本从 tesseract 输出。
C) 如果您在使用 tesseract 之前有精确的线条框,您还可以考虑训练一种算法(完全卷积神经网络),该算法将线条的粗体部分分割,然后裁剪图像并仅将 tesseract 用于粗体部分。这可能是最具技术性的解决方案,但我认为它也可以工作。
【讨论】: