带有 Tesseract 的 hOCR 文件 / 确定 PDF 是否具有高质量的文本层答案

【问题标题】：hOCR Files with Tesseract / Determining if a PDF has high quality text layers带有 Tesseract 的 hOCR 文件 / 确定 PDF 是否具有高质量的文本层
【发布时间】：2018-02-14 02:41:53
【问题描述】：

我有一个 Tesseract 4.0 设置，我们正在使用用于 OCR 的 LSTM 模型；传入的扫描 PDF 被解构为单独的 300dpi 上采样 PNG，然后进行去偏斜和 OCR 处理，然后重新组合成带有文本层的 PDF，同时还保存每个页面的 PNG 以便在网络浏览器中进一步显示。

有时我们会收到已使用文本层进行专业转录的 PDF，在这些文件上运行 Tesseract 会导致准确性下降。

我们还需要稍后根据特定标签对 PNG 页面的某些部分进行分类，以用于机器学习应用程序。

所以问题是这样的：

1) 有没有办法确定 PDF 是否已经有文本层并确定该文本的准确性？

2) 是否可以将已经包含文本层的 PDF 分解为单独的每页 hOCR 文件，以便可以使用边界框突出显示这些页面的 PNG 格式的特定区域，并从相应的区域检索该区域的文本hOCR 文件？

3) 当使用 Tesseract 将 OCR 文本保存为 hOCR 格式时，这是否提供了足够的信息以能够从 hOCR 文件中检索与 hOCR 文件所在的 PNG 上的确切区域相对应的任意文本块创建自？

提前致谢

【问题讨论】：

标签： tesseract hocr

【解决方案1】：

有不同的工具可以将带有文本层的 PDF 转换为简单的文本或一些 HTML；只需搜索例如对于 pdf2text 或 pdf2html。因此，您可以通过使用此类工具并检查文本内容是否为非空来确定PDF是否具有文本层（问题1.a）。此外，我建议对文本进行一些完整性检查（例如合理的字长，字典中的一些单词），以避免只有乱码（问题 1.b 的一部分）。

我不知道有任何 pdf2hocr 工具（问题 2）。当然有可能想出这样的东西。但也许，使用前面提到的 pdf2html 工具之一的输出更容易。 ocr-fileformat 仓库有一个相关问题：https://github.com/UB-Mannheim/ocr-fileformat/issues/57

Tesseract 的 hocr 输出将为您提供每行和每个单词的边界框的坐标。因此，您可以计算给定区域，哪些行或单词与其相交并输出其文本内容（问题 3）。但是，你没有角色的位置。

【讨论】：