【问题标题】:OCR that delivers overlay HTML to an Image?将覆盖 HTML 传递到图像的 OCR?
【发布时间】:2013-05-06 17:33:13
【问题描述】:

我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。

内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。

是否有其他软件可以执行和导出内联 OCR?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。

另请参阅:
https://stackoverflow.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from

【问题讨论】:

  • 我也对这个问题感兴趣。 (我假设“未命名”意味着它是专有的,而不是你不知道它是什么)。您是在训练 OCR 还是假设它会根据给定的字符集进行解释。 shapecatcher.com 会帮助您吗 - 它针对标准 Unicode 字形集运行位图?
  • 谢谢。我正在制作一个完全开源的解决方案来提取信息(bitbucket.org/petermr/pdf2svg-dev 和 bitbucket.org/petermr/svg2xml-dev from PDF,但在图像/OCR 部分还没有做太多。我希望先解决 ANSI,但不要屏住呼吸。

标签: html ocr


【解决方案1】:

我发现 Google Drive API 在需要 OCR 时很有帮助。它试图保留文档的格式,当然可以导出为 HTML。

看看以下链接:

【讨论】:

    【解决方案2】:

    我有一个可能的解决方案给你。但是,这个特殊的解决方案有一些缺点,可能会阻碍你的最终目标。

    首先将图像文件转换为pdf:http://finereader.abbyyonline.com 然后在http://document.online-convert.com/convert-to-html将pdf转换为html

    这个解决方案适用于纸张大小的东西,最终结果是带有图像叠加层的 html,如果你想要的只是带有图像格式的 html,只需使图像完全透明。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-02-09
      • 2020-05-30
      • 1970-01-01
      • 1970-01-01
      • 2016-07-28
      • 2011-07-25
      • 1970-01-01
      相关资源
      最近更新 更多