【发布时间】:2021-07-13 22:53:47
【问题描述】:
我正在尝试使用 Python 3.7 通过使用正则表达式提取元素来识别 pdf 文档中的模式。提取数据时有两个原因:
首先是我得到的结果如下:
R.U.T .: 99.999.999-9
COMPANY
ELECTRONIC TICKET
Committed to you
N
54280631
COMPANY S.A. SALE
RUT: 99.999.999-9 Directory 111, City
而第二种情况是:
R.U.T .: 99.999.999-9
COMPANY
ELECTRONIC TICKET
Committed to you
N 54280631
COMPANY S.A. SALE
RUT: 99.999.999-9 Directory 111, City
我需要一个可以同时获取两种情况的正则表达式,以使用 RegeX 获取发票编号。在这种情况下,发票编号为“N 54280631”。
我尝试了以下正则表达式,但它不适用于两种情况之一。
([N]).*\n+([0-9])+.*\w+
知道正则表达式应该是什么样子才能得到这个结果吗?
【问题讨论】:
-
你可以使用
(?m)^N\s+(\d+)$ -
请确认匹配发生在整行或两个完整的相邻行上。
-
成功了!谢谢大家!
(?m)是多行吗?
标签: python regex expression regex-lookarounds