将覆盖 HTML 传递到图像的 OCR？答案

【问题标题】：OCR that delivers overlay HTML to an Image?将覆盖 HTML 传递到图像的 OCR？
【发布时间】：2013-05-06 17:33:13
【问题描述】：

我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能，可以对带有图像的 PDF 文档进行内联 OCR。

内联 OCR 非常方便，它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本，OCR 文本与底层图像对齐。不幸的是，我不能从未命名的产品中导出或存储内联 OCR。

是否有其他软件可以执行和导出内联 OCR？我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。

【问题讨论】：

我也对这个问题感兴趣。（我假设“未命名”意味着它是专有的，而不是你不知道它是什么）。您是在训练 OCR 还是假设它会根据给定的字符集进行解释。 shapecatcher.com 会帮助您吗 - 它针对标准 Unicode 字形集运行位图？
谢谢。我正在制作一个完全开源的解决方案来提取信息（bitbucket.org/petermr/pdf2svg-dev 和 bitbucket.org/petermr/svg2xml-dev from PDF，但在图像/OCR 部分还没有做太多。我希望先解决 ANSI，但不要屏住呼吸。

标签： html ocr

【解决方案1】：

我发现 Google Drive API 在需要 OCR 时很有帮助。它试图保留文档的格式，当然可以导出为 HTML。

看看以下链接：

【讨论】：

【解决方案2】：

我有一个可能的解决方案给你。但是，这个特殊的解决方案有一些缺点，可能会阻碍你的最终目标。

这个解决方案适用于纸张大小的东西，最终结果是带有图像叠加层的 html，如果你想要的只是带有图像格式的 html，只需使图像完全透明。

【讨论】：