【发布时间】:2014-07-10 00:14:22
【问题描述】:
因此,下面的正则表达式(用 python3 编写)只是将添加到更大的正则表达式中的一部分,以将 url 拆分为模式、域和路径。这部分是提取路径。
link = "http://google.com/whatever/who/jx.html"
components = re.split(r'(?<![:/])(/.*$)', link)
返回以下内容:
['http://google.com', '/whatever/who/jx.html', '']
为什么正则表达式会在列表末尾返回一个额外的元素?
【问题讨论】:
-
不是您问题的直接答案,但不要使用正则表达式解析网址。使用
urllib.parse。