【发布时间】:2013-05-06 17:33:13
【问题描述】:
我正在寻找一种将覆盖 HTML 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。
内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。
是否有其他软件可以执行和导出内联 OCR?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。
【问题讨论】:
-
我也对这个问题感兴趣。 (我假设“未命名”意味着它是专有的,而不是你不知道它是什么)。您是在训练 OCR 还是假设它会根据给定的字符集进行解释。 shapecatcher.com 会帮助您吗 - 它针对标准 Unicode 字形集运行位图?
-
谢谢。我正在制作一个完全开源的解决方案来提取信息(bitbucket.org/petermr/pdf2svg-dev 和 bitbucket.org/petermr/svg2xml-dev from PDF,但在图像/OCR 部分还没有做太多。我希望先解决 ANSI,但不要屏住呼吸。