【发布时间】:2018-01-24 23:35:09
【问题描述】:
可以使用 OCR 将扫描的 PDF 转换为新的可搜索 PDF 文件 来自 Google Cloud Platform 的服务?
【问题讨论】:
可以使用 OCR 将扫描的 PDF 转换为新的可搜索 PDF 文件 来自 Google Cloud Platform 的服务?
【问题讨论】:
Google Vision API 不直接提供源文件为图像 PDF 且输出为可搜索 PDF 的此功能。您可以在Issue Tracker 提交关于它的功能请求。但是,Vision API OCR 可以返回在扫描文档(图像格式)中检测到的单词的实际位置,例如 example。为了使图像上的文本可搜索,您可以尝试使用每个单词的boundingPoly。最简单的解决方案可能是创建一个包含单词及其boundingPoly 位置的表格,并将其映射到文档图像。
请注意,如果原始扫描文档是 PDF 格式,您必须先将其转换为受支持的图像文件,然后才能使用 vision API。您可能还必须使用第三方解决方案将生成的文件转换回 PDF。
此外,如果您想从图像中提取文本并将其转换为 PDF 而不提取图表、图片、表格等,您可以查看此tutorial。
【讨论】:
可以使用 OCR 服务将扫描的 PDF 转换为新的可搜索 PDF 文件,您可以寻找 LeadTools 和 Amazon Textract 服务
【讨论】: