【问题标题】:How can I generate a PDF file from Amazon Textract output?如何从 Amazon Textract 输出生成 PDF 文件?
【发布时间】:2019-08-15 22:26:46
【问题描述】:

我正在使用 Amazon Textract 从扫描的文档中提取数据。现在我想将输出转换为 PDF 文件。以下是 Textract 的示例输出:

[1] => Array
                    (
                        [BlockType] => LINE
                        [Confidence] => 99.4744720459
                        [Text] => Hello
                        [Geometry] => Array
                            (
                                [BoundingBox] => Array
                                    (
                                        [Width] => 0.243866533041
                                        [Height] => 0.0134594505653
                                        [Left] => 0.176409825683
                                        [Top] => 0.0463116429746
                                    )

                                [Polygon] => Array
                                    (
                                        [0] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0463116429746
                                            )

                                        [1] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0463116429746
                                            )

                                        [2] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0597710944712
                                            )

                                        [3] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0597710944712
                                            )

                                    )

                            )

                        [Id] => 75e8917d-701e-4e26-bade-f00bde9d87db
                        [Relationships] => Array
                            (
                                [0] => Array
                                    (
                                        [Type] => CHILD
                                        [Ids] => Array
                                            (
                                                [0] => 46f44500-4960-4405-99f3-fa43101bc2ca
                                            )

                                    )

                            )

                    )

如您所见,输出包含文本、高度、宽度及其 XY 坐标。如何将具有相同坐标的文本放入 PDF 文件中?

【问题讨论】:

  • 您想将文本叠加到现有 PDF 上,还是想使用此信息从头开始创建 PDF?另一种询问方式是,您是用这些数据填写表格,还是创建一个全新的文档。
  • @user1153660 我正在尝试使用这些数据从头开始创建 PDF。
  • @Sreeraj 你做到了吗?

标签: amazon-web-services pdf pdf-generation tcpdf fpdf


【解决方案1】:

假设您可以将以上内容转换为 JSON,您可以使用 jsPDFPDFkit 创建 PDF。根据您发布的有限数据,功能映射非常好,但我还没有看到 Textract 的完整结构,因为它仍处于测试阶段,我没有收到该程序的邀请。这两个项目都可以使用 Node 创建服务器端解决方案,但它们也可以在浏览器中运行。

在撰写本文时,Google Cloud 在其Vision - Document Text Detection 功能中包含一个 OCR 组件。与 Textract 不同,它处理任务时只是报告文档具有哪些可视元素,并创建一个全面的(和大型的)数据结构来描述它“看到”的内容。据亚马逊称,Textract 使用机器学习以一种更易于人类理解的形式组织数据,旨在将表单与构成表单填写部分的数据区分开来。如果您正在尝试创建一个相对完整的 PDF,Google 产品非常适合。 Textract 可能也是,但我还不知道。

【讨论】:

    【解决方案2】:

    This 存储库包含代码示例(Java 语言),展示了如何使用 AWS Textract 生成可搜索的 PDF。如果您不使用 Java,您也可以将其部署为 AWS Lambda 函数,然后通过 AWS 开发工具包或使用 AWS API Gateway 作为 REST API 调用来调用它。

    也有相应的博文here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-05-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-09-24
      • 1970-01-01
      相关资源
      最近更新 更多