OCR 正方体配置答案

【问题标题】：OCR Tesseract configurationOCR 正方体配置
【发布时间】：2016-10-11 12:52:19
【问题描述】：

我正在使用 Tesseract 从图像中提取词汇表。

列表包含 2 种不同的语言。不幸的是，lang1 和 lang2 之间只有空格（可能是 3 或 4 个空白字符）。

有没有办法定义，用哪个字符串将两者分开。

列表可能如下所示：

房屋、建筑 Haus、Gebäude 树鲍姆 ...

我也有问题在每个单词对之后换行。

谢谢！

编辑：我运行这个命令

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从这张图片中提取所有条目

如您所见，值之间没有明确的分隔符。作为输出，我得到了这个

nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

安静好。但是由于缺少可用的分隔符，我不知道如何将每行的字符串分成两个字符串。

【问题讨论】：

请分享您迄今为止尝试过的内容以及您使用的编程语言。分享图片也可能会有所帮助。
@hcham1：我在问题中添加了更多细节。

标签： ocr tesseract

【解决方案1】：

您可以使用 Tesseract API 并尝试通过调用 ResultIterator 类的方法 WordFontAttributes 来区分单词，以确定一个单词是否为粗体。 ThisGitHub gist 展示了如何使用该方法。

【讨论】：