【问题标题】:Need to extract information from PDF using Regular expression需要使用正则表达式从 PDF 中提取信息
【发布时间】:2021-12-01 09:30:26
【问题描述】:

我需要使用正则表达式从 pdf 列表中提取两个单词标签的信息。 每个pdf的结构都是一样的。我可以使用 UiPath 活动阅读 pdf 的整个文本,但我只需要使用正则表达式从整个文本中提取一些信息。

第一个单词标签是 Wertmindernde Faktoren(粗体),它总是有如下信息(以表格形式)

Please click on the link to see the image

如您所见,信息是表格格式,我需要使用正则表达式仅针对此特定标签以表格格式提取。

第二个标签是 Gebrauchsspuren(粗体) 这有时会以表格形式或有时以句子形式提供信息。 下面提到

Table Format

Sentence Format

那么对于这两个标签的正则表达式有什么帮助或建议?

提前致谢。

请在下面找到示例,我需要提取“Wertmindernde Faktoren”一词下的表格

Vordersitze beheizbar
Vordersitze elektrisch einstellbar, Fahrersitz mit Memory, Komforteinstieg, längs verschiebbarer
Oberschenkelauflage
Wegfahrsperre elektronisch

20.07.2021                                           Gutachtennummer: XXXXXXX                                                Seite 6 / 17TÜV SÜD Auto Plus GmbH                                    Fahrzeugbewertung
                                                          Wiesenring 2
                                                          04159 Leipzig
                                                          +XXXXXXXXXXXX
GUTACHTENNUMMER: XXXXXX
Bei Rückfragen bitte Gutachtennummer und Datum angeben                                                              Datum: 20.07.2021

Ausstattung
Zentralverriegelung ohne Safe-Sicherung,mit Funkfernbedienung, 2 Funkschlüssel, Komfortstartfunktion
"Press & Drive"

Wertmindernde Faktoren
Nr.     Bauteilgruppe                   Beschreibung
1       Heckklappe/-tür                 Heckklappe - Dellen - sanft instandsetzen

Gebrauchsspuren
Nr.     Bauteilgruppe                   Beschreibung
1       Stossfänger vorn                Spoiler (Unterhalb) - Kratzer - kein Abzug
2       Stossfänger hinten              Stossfänger hinten - Kratzer - kein Abzug
3       Tür hinten rechts               Tür - Dellen - kein Abzug
4       Tür vorn rechts                 Tür - Dellen - kein Abzug

Vorschaden
Nr.     Vorschaden                                                                                                 Schadenshöhe
1       fachgerecht repariert , Reparaturrechnung nicht vorhanden                                                            311,10 €
2       fachgerecht repariert , Reparaturrechnung nicht vorhanden                                                            493,31 €
3       Seite links, fachgerecht repariert , Reparaturrechnung nicht vorhanden

Summe (netto):                                                                                                               804,41 €

Nachlackierungen
Nr.     Ort
1       Tür vorne links, fachgerecht ausgeführt

Hinweise zum Gutachten
Angaben zum Auftrag und zum Begutachtungsumfang:
Es wurde der Auftrag erteilt, eine Fahrzeugbewertung über das beschriebene Fahrzeug zu erstellen.

【问题讨论】:

  • 你需要提取哪些信息?你能解释一下你想要的预期结果吗?
  • @TheRight 您好,感谢您的评论,我需要提取“Wertmindernde Faktoren”字样下的表格,该表格的位置对于每个pdf都是相同的,您可以在下面找到示例跨度>
  • @TheRight 我已经在我编辑的帖子中添加了示例测试,请检查一次,谢谢

标签: regex pdf uipath


【解决方案1】:

试试这个正则表达式:

(?:Wertmindernde Faktoren.*)\n(.*(?:\n.+)*)

Demo

如果您希望正则表达式与您的两个单词匹配,请尝试:

(?:Wertmindernde Faktoren|Gebrauchsspuren.*)\n(.*(?:\n.+)*)

Demo 2

我不熟悉 UiPath,但您可以从 here 尝试这样:

Regex.Match(YourPdfText, “(?:Wertmindernde Faktoren|Gebrauchsspuren.*)\n(.*(?:\n.+)*)”).Value

查看匹配活动和here

【讨论】:

  • 感谢您的回复,这正在工作,您知道我如何在 UiPath 中使用它吗?这在 UiPath 中不起作用
  • 检查我的更新
  • 再次非常感谢您的回复,实际上我知道如何将其放入 uipath,问题是别的,让我解释一下,uipath 使用 windows 换行符以及新换行符,所以它通常带有“示例文本\r\nSomeNewLineText”,这就是它在 uipath 中不起作用的原因
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-09-08
  • 1970-01-01
  • 2022-07-20
  • 1970-01-01
  • 2019-09-30
相关资源
最近更新 更多