【问题标题】:OCR-Engine Tesseract: how to automate text recognition on a large amount of filesOCR-Engine Tesseract:如何自动识别大量文件的文本
【发布时间】:2023-03-20 02:55:01
【问题描述】:

我有大量文件要解析。

它们看起来像这些:看一个例子:

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html

我想使用 Image::OCR::Tesseract 可能会很有趣。我想我用 Tesseract (http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod) 解析这个

use Image::OCR::Tesseract 'get_ocr';

my $image = './hi.jpg';

my $text = get_ocr($image);

这是正确的语法吗?

【问题讨论】:

  • 您的问题到底是什么?你发布的内容有效吗?
  • 嗨,我没有 OCR 经验——我已经用 tesseract 进行了第一次试验——但我不确定我是否应用了正确的代码!?我希望找到一些在 Tesseract 方面有更多经验的人......提供一些帮助/经验 - 和最佳实践

标签: perl parsing ocr


【解决方案1】:

您可以下载并编译最新版本的tesseract。然后你可以编写一个(shell 或 Perl)脚本来提供你所有的文件进行解析。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-06-14
    • 2017-03-28
    • 2018-03-08
    • 1970-01-01
    • 2014-12-21
    • 1970-01-01
    • 2018-01-16
    • 2017-05-19
    相关资源
    最近更新 更多