【发布时间】:2010-12-31 18:30:27
【问题描述】:
我想从包含链接的 html 文档中提取文本。例如:
来自此 HTML 代码
<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>
我只想提取这个
bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello
在 StackOverflow 上的另一篇文章中,我发现了 RegEx <[^>]*>,它允许通过将每个匹配项替换为空来提取文本。如何从匹配中排除锚标签? RegEx 似乎不允许反向匹配。
【问题讨论】:
-
使用 HTML 解析器!正则表达式无法正确解析 HTML。
-
您使用什么编程语言?如果您告诉我们,答案可能对您更有意义。
-
我在 Google Chrome 上使用 Javascript。我需要以某种方式过滤有效的 HTML 代码。
-
@Licx:您的 HTML 已经是 DOM 还是只是源代码?如果是前者,你真的应该使用 DOM 方法。
标签: html regex regex-negation