【问题标题】:How do i format text extracted from PDF to json in python如何在python中将从PDF提取的文本格式化为json
【发布时间】:2019-03-16 13:11:15
【问题描述】:

我使用 pyPDF2 提取了一些文本格式的发票 PDF。我想将此文本文件转换为仅包含重要关键字和标记的 json 文件。

输出应该是这样的:

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从 pdf 中获得的示例文本是:

PACE 会员用品 房子

4115 回音松圈

大草原城,德克萨斯州 75051

972

336

7141

56929268

采购订单

到:

埃尔默·A·华

A+ 投资

塞鲁洛路 1223 号

肯塔基州列克星敦 40507

[电话号码]

运送到:

闫月桂

步伐 会员仓库

4115 回音松圈

大草原城,德克萨斯州 75051

972

336

7141

邮政信箱号码:

PO/18

19081

[邮政信箱号码必须 出现在所有相关的 通信,运输 文件和发票]

发货日期

申请者

发货方式

离岸价要点

条款

2006 年 7 月 15 日

数量

单位

描述

单价

总计 (新币)

100.00

1

联锁漂移圆颈,ILRN

13.50

1,350.00

小计

1,350.00

销售税

200.00

1.

请发送两份您的 发票。

2.

根据价格、条款输入此订单, 交货方式和规格如上。

3.

如果您无法按以下方式发货,请立即通知我们 指定。

4.

将所有信件发送至:

闫月桂

4115 回音松圈

格拉 nd 大草原,TX 75051

972

336

7141

56929268

运输和处理 G

其他

总计

1,550.00

授权人 闫月桂

2006 年 7 月 15 日

【问题讨论】:

    标签: python json pypdf2


    【解决方案1】:

    您已提供文本,编辑您的帖子以删除地址可能是个好主意

    要回答您的问题,您必须逐行遍历此文本并记录您需要的部分并将这些部分保存到 json。

    如果您只想按位置获取页面的子集,那么之前已经询问过 How to extract text from a Specific Area in a PDF using Python?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-11-16
      • 1970-01-01
      • 2011-01-12
      • 2022-11-01
      • 2018-05-12
      • 2014-07-21
      • 1970-01-01
      相关资源
      最近更新 更多