【发布时间】:2019-03-16 13:11:15
【问题描述】:
我使用 pyPDF2 提取了一些文本格式的发票 PDF。我想将此文本文件转换为仅包含重要关键字和标记的 json 文件。
输出应该是这样的:
#PurchaseOrder
{
"doctype":"PO",
"orderingcompany":"Demo Company",
"suppliercompany":"Demo Company",
"shipto":"Test Customer",
"ponum":"PO1234",
"podate":"01-01-2019",
"totalamount":"$1234.50",
"currency":"SGD"
}
我从 pdf 中获得的示例文本是:
PACE 会员用品 房子
4115 回音松圈
大草原城,德克萨斯州 75051
972
336
7141
56929268
采购订单
到:
埃尔默·A·华
A+ 投资
塞鲁洛路 1223 号
肯塔基州列克星敦 40507
[电话号码]
运送到:
闫月桂
步伐 会员仓库
4115 回音松圈
大草原城,德克萨斯州 75051
972
336
7141
邮政信箱号码:
PO/18
19081
[邮政信箱号码必须 出现在所有相关的 通信,运输 文件和发票]
发货日期
申请者
发货方式
离岸价要点
条款
2006 年 7 月 15 日
数量
单位
描述
单价
总计 (新币)
100.00
1
联锁漂移圆颈,ILRN
13.50
1,350.00
小计
1,350.00
销售税
200.00
1.
请发送两份您的 发票。
2.
根据价格、条款输入此订单, 交货方式和规格如上。
3.
如果您无法按以下方式发货,请立即通知我们 指定。
4.
将所有信件发送至:
闫月桂
4115 回音松圈
格拉 nd 大草原,TX 75051
972
336
7141
56929268
运输和处理 G
其他
总计
1,550.00
授权人 闫月桂
2006 年 7 月 15 日
【问题讨论】: