【发布时间】:2019-10-22 12:24:49
【问题描述】:
我在以下模板中有非结构化数据:
'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P31c> <http://www.wikidata.org/entity/Q1454986> .',
'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P227c> "4079154-3" .',
'<http://www.wikidata.org/entity/Q1> <http://www.wikidata.org/entity/P373c> "Universe" .'
我想提取每个 url 的最后一个元素,结果应该是这样的:
'Q1 P31c Q1454986',
'Q1 P227c 4079154-3',
'Q1 P373c Universe'
我已经尝试了一些示例,包括 this 和 this。但是,大多数情况下,它们在一行中只有一个链接。
我还在学习正则表达式,我无法解决上述问题。
【问题讨论】:
-
为什么要专门使用正则表达式?有更简单的方法来做到这一点
-
' '.join(re.findall(r'/([^/>]+)>', s))