【问题标题】:GCP OCR Service - Convert Scanned PDF or Image to a Searchable PDFGCP OCR 服务 - 将扫描的 PDF 或图像转换为可搜索的 PDF
【发布时间】:2018-01-24 23:35:09
【问题描述】:

可以使用 OCR 将扫描的 PDF 转换为新的可搜索 PDF 文件 来自 Google Cloud Platform 的服务?

【问题讨论】:

    标签: google-cloud-platform ocr


    【解决方案1】:

    Google Vision API 不直接提供源文件为图像 PDF 且输出为可搜索 PDF 的此功能。您可以在Issue Tracker 提交关于它的功能请求。但是,Vision API OCR 可以返回在扫描文档(图像格式)中检测到的单词的实际位置,例如 example。为了使图像上的文本可搜索,您可以尝试使用每个单词的boundingPoly。最简单的解决方案可能是创建一个包含单词及其boundingPoly 位置的表格,并将其映射到文档图像。

    请注意,如果原始扫描文档是 PDF 格式,您必须先将其转换为受支持的图像文件,然后才能使用 vision API。您可能还必须使用第三方解决方案将生成的文件转换回 PDF。

    此外,如果您想从图像中提取文本并将其转换为 PDF 而不提取图表、图片、表格等,您可以查看此tutorial

    【讨论】:

    • 嗨,如何从文本生成 pdf 文件很简单,但是将包含图像、表格等的扫描 pdf 转换为新的可搜索 pdf 并非易事。
    • @Gus 我修改了我的答案以反映您对问题的澄清。我希望这会有所帮助。
    【解决方案2】:

    可以使用 OCR 服务将扫描的 PDF 转换为新的可搜索 PDF 文件,您可以寻找 LeadTools 和 Amazon Textract 服务

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-12-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-02-24
      • 1970-01-01
      • 2012-01-21
      • 2018-10-26
      相关资源
      最近更新 更多