【问题标题】:hOCR Files with Tesseract / Determining if a PDF has high quality text layers带有 Tesseract 的 hOCR 文件 / 确定 PDF 是否具有高质量的文本层
【发布时间】:2018-02-14 02:41:53
【问题描述】:

我有一个 Tesseract 4.0 设置,我们正在使用用于 OCR 的 LSTM 模型;传入的扫描 PDF 被解构为单独的 300dpi 上采样 PNG,然后进行去偏斜和 OCR 处理,然后重新组合成带有文本层的 PDF,同时还保存每个页面的 PNG 以便在网络浏览器中进一步显示。

有时我们会收到已使用文本层进行专业转录的 PDF,在这些文件上运行 Tesseract 会导致准确性下降。

我们还需要稍后根据特定标签对 PNG 页面的某些部分进行分类,以用于机器学习应用程序。

所以问题是这样的:

1) 有没有办法确定 PDF 是否已经有文本层并确定该文本的准确性?

2) 是否可以将已经包含文本层的 PDF 分解为单独的每页 hOCR 文件,以便可以使用边界框突出显示这些页面的 PNG 格式的特定区域,并从相应的区域检索该区域的文本hOCR 文件?

3) 当使用 Tesseract 将 OCR 文本保存为 hOCR 格式时,这是否提供了足够的信息以能够从 hOCR 文件中检索与 hOCR 文件所在的 PNG 上的确切区域相对应的任意文本块创建自?

提前致谢

【问题讨论】:

    标签: tesseract hocr


    【解决方案1】:

    有不同的工具可以将带有文本层的 PDF 转换为简单的文本或一些 HTML;只需搜索例如对于 pdf2text 或 pdf2html。因此,您可以通过使用此类工具并检查文本内容是否为非空来确定PDF是否具有文本层(问题1.a)。此外,我建议对文本进行一些完整性检查(例如合理的字长,字典中的一些单词),以避免只有乱码(问题 1.b 的一部分)。

    我不知道有任何 pdf2hocr 工具(问题 2)。当然有可能想出这样的东西。但也许,使用前面提到的 pdf2html 工具之一的输出更容易。 ocr-fileformat 仓库有一个相关问题:https://github.com/UB-Mannheim/ocr-fileformat/issues/57

    Tesseract 的 hocr 输出将为您提供每行和每个单词的边界框的坐标。因此,您可以计算给定区域,哪些行或单词与其相交并输出其文本内容(问题 3)。但是,你没有角色的位置。

    【讨论】:

      猜你喜欢
      • 2014-12-21
      • 1970-01-01
      • 2013-05-10
      • 2016-11-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-02-20
      • 1970-01-01
      相关资源
      最近更新 更多