【发布时间】:2013-09-10 11:18:09
【问题描述】:
我得到了一个字符串形式的 HTML 文件,我想将所有 <img src="http:.../../filename.png ..> 更改为 <img src="id:filename.png> 我如何使用正则表达式来做到这一点?
到目前为止我得到了这个:
urls = re.findall(r'src=[\'"]?([^\'" >]+)', html)
allUrls = ', '.join(urls)
【问题讨论】:
-
永远不要使用正则表达式解析 HTML。使用 HTML 解析器,例如
BeautifulSoup或lxml。 -
@alecxe:有个正则表达式与 HTML 相结合的应用程序。 通常但是,HTML 解析器是更好的解决方案。
-
@MartijnPieters 当然,谢谢,
ever是为了增加一些重点。 -
理论上 HTML/XML/Java 无法使用正则表达式进行解析。为此需要使用上下文无关语法。
-
感谢您的帮助! stackoverflow.com/questions/1579133/… 似乎使用 HTML 解析器解决了我的问题!