【问题标题】:OCR Tesseract configurationOCR 正方体配置
【发布时间】:2016-10-11 12:52:19
【问题描述】:

我正在使用 Tesseract 从图像中提取词汇表。

列表包含 2 种不同的语言。不幸的是,lang1 和 lang2 之间只有空格(可能是 3 或 4 个空白字符)。

有没有办法定义,用哪个字符串将两者分开。

列表可能如下所示:

房屋、建筑 Haus、Gebäude 树鲍姆 ...

我也有问题在每个单词对之后换行。

谢谢!

编辑: 我运行这个命令

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从这张图片中提取所有条目

如您所见,值之间没有明确的分隔符。作为输出,我得到了这个

nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

安静好。但是由于缺少可用的分隔符,我不知道如何将每行的字符串分成两个字符串。

【问题讨论】:

  • 请分享您迄今为止尝试过的内容以及您使用的编程语言。分享图片也可能会有所帮助。
  • @hcham1:我在问题中添加了更多细节。

标签: ocr tesseract


【解决方案1】:

您可以使用 Tesseract API 并尝试通过调用 ResultIterator 类的方法 WordFontAttributes 来区分单词,以确定一个单词是否为粗体。 ThisGitHub gist 展示了如何使用该方法。

【讨论】:

    猜你喜欢
    • 2018-12-19
    • 1970-01-01
    • 2012-08-10
    • 2015-04-21
    • 2013-02-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多