【发布时间】:2018-01-25 19:40:56
【问题描述】:
我想用正则表达式找到所有img标签到html文档中并提取src属性的内容。
这是我的正则表达式(在线查看https://regex101.com/r/EE08dw/1):
<img(?<prepend>[^>]+?)src=('|")?(?<src>[^\2>]+)[\2]?(?<append>[^>]*)>
在测试字符串上:
<img src="aaa.jpg">
输出是:
Full match `<img src="aaa.jpg">`
Group prepend ` `
Group 2. "
Group srs `aaa.jpg"`
Group append ``
但预期的输出是:
Full match `<img src="aaa.jpg">`
Group prepend ` `
Group 2. "
Group srs `aaa.jpg`
Group append ``
问题在于src 也匹配" 字符组:
Output: Group srs `aaa.jpg"`
Expected: Group srs `aaa.jpg`
如何解决?
旁注:正则表达式在我的上下文中是安全的
【问题讨论】:
-
@ctwheels 你评论中的图片是什么?
-
文本底部有很多变音符号和东西。我认为的所有口音。
标签: html regex regex-negation regex-group