【发布时间】:2014-10-07 06:19:16
【问题描述】:
我需要从滚动的 HTML 源代码中提取元属性。滚动后的HTML代码包含如下
示例:
<meta property="og:site_name" content="asasasas">
<meta property="og:title" content="asajhskajhsaksp;" />
<meta property="og:image" content="images.cxs.com/2014/09/modit1.gif?w=209" />
这里我只想获取 meta property="og:image" 的内容,即结果应该只有
images.cxs.com/2014/09/modit1.gif?w=209
【问题讨论】:
-
@Biffen:在这种任务中使用正则表达式有什么问题?没有递归或任何正则表达式无法处理的东西。
-
@Rawing—HTML 不是正则语言,它不能用正则表达式可靠地解析,尽管您可以使用正则表达式来标记 HTML 解析器中的输入。
-
@Rawing 您是否阅读了链接的答案?如果
property和content的顺序相反怎么办?如果里面有其他属性怎么办?如果某处有注释掉的meta元素怎么办?如果属性中有 HTML 元素怎么办?我可以继续...
标签: javascript html regex