【发布时间】:2018-02-14 02:41:53
【问题描述】:
我有一个 Tesseract 4.0 设置,我们正在使用用于 OCR 的 LSTM 模型;传入的扫描 PDF 被解构为单独的 300dpi 上采样 PNG,然后进行去偏斜和 OCR 处理,然后重新组合成带有文本层的 PDF,同时还保存每个页面的 PNG 以便在网络浏览器中进一步显示。
有时我们会收到已使用文本层进行专业转录的 PDF,在这些文件上运行 Tesseract 会导致准确性下降。
我们还需要稍后根据特定标签对 PNG 页面的某些部分进行分类,以用于机器学习应用程序。
所以问题是这样的:
1) 有没有办法确定 PDF 是否已经有文本层并确定该文本的准确性?
2) 是否可以将已经包含文本层的 PDF 分解为单独的每页 hOCR 文件,以便可以使用边界框突出显示这些页面的 PNG 格式的特定区域,并从相应的区域检索该区域的文本hOCR 文件?
3) 当使用 Tesseract 将 OCR 文本保存为 hOCR 格式时,这是否提供了足够的信息以能够从 hOCR 文件中检索与 hOCR 文件所在的 PNG 上的确切区域相对应的任意文本块创建自?
提前致谢
【问题讨论】: