【发布时间】:2016-10-11 12:52:19
【问题描述】:
我正在使用 Tesseract 从图像中提取词汇表。
列表包含 2 种不同的语言。不幸的是,lang1 和 lang2 之间只有空格(可能是 3 或 4 个空白字符)。
有没有办法定义,用哪个字符串将两者分开。
列表可能如下所示:
房屋、建筑 Haus、Gebäude 树鲍姆 ...
我也有问题在每个单词对之后换行。
谢谢!
编辑: 我运行这个命令
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu
从这张图片中提取所有条目
如您所见,值之间没有明确的分隔符。作为输出,我得到了这个
nej nein
jaha aha
Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für
tala (talar, talade, talat) sprechen
språk (-et, —, -en) Sprache
japanska japanisch
engelska englisch
Du då? Und du?
då da, dann, damals, als
bara nur
lite ein bisschen
verb (-et, —, en) Verb
position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!
fråga (-n, -or, -orna) Frage
安静好。但是由于缺少可用的分隔符,我不知道如何将每行的字符串分成两个字符串。
【问题讨论】:
-
请分享您迄今为止尝试过的内容以及您使用的编程语言。分享图片也可能会有所帮助。
-
@hcham1:我在问题中添加了更多细节。