【发布时间】:2020-05-28 05:32:45
【问题描述】:
我有一个这样的字符串:
string = r'''<img height="233" src="monline/" title="email example" width="500" ..
title="second example title" width="600"...
title="one more title"...> '''
我正在尝试获取任何显示为标题的内容 (title="Anything here") 我已经尝试过了,但它不能正常工作。
re.findall(r'title=\"(.*)\"',string)
【问题讨论】:
-
正则表达式不是解析 html 的好方法。使用 html 解析器。
-
使用 xpath 的 requests 库可能是要走的路:pypi.org/project/requests-html
-
Parsing HTML with regex is a hard job HTML 和正则表达式不是好朋友。使用解析器,它更简单、更快且更易于维护。