OCR-Engine Tesseract：如何自动识别大量文件的文本答案

【问题标题】：OCR-Engine Tesseract: how to automate text recognition on a large amount of filesOCR-Engine Tesseract：如何自动识别大量文件的文本
【发布时间】：2023-03-20 02:55:01
【问题描述】：

我有大量文件要解析。

它们看起来像这些：看一个例子：

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html

我想使用 Image::OCR::Tesseract 可能会很有趣。我想我用 Tesseract (http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod) 解析这个

use Image::OCR::Tesseract 'get_ocr';

my $image = './hi.jpg';

my $text = get_ocr($image);

这是正确的语法吗？

【问题讨论】：

您的问题到底是什么？你发布的内容有效吗？
嗨，我没有 OCR 经验——我已经用 tesseract 进行了第一次试验——但我不确定我是否应用了正确的代码！？我希望找到一些在 Tesseract 方面有更多经验的人......提供一些帮助/经验 - 和最佳实践

标签： perl parsing ocr

【解决方案1】：

您可以下载并编译最新版本的tesseract。然后你可以编写一个（shell 或 Perl）脚本来提供你所有的文件进行解析。

【讨论】：