【发布时间】:2015-03-26 15:51:55
【问题描述】:
我正在寻找一个正则表达式,它必须在不同类型的 HTML 标记之间提取文本。
例如:
<span>Span 1</span> - O/p:跨度 1
<div onclick="callMe()">Span 2</div> - O/p:跨度 2
<a href="#">HyperText</a> - O/p: 超文本
我从here 中找到了这件特别的作品<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>,但这件作品不起作用。
【问题讨论】:
-
请准确说明它是如何不工作的。
-
想给大家推荐一下这个问题的传奇*答案:*.com/questions/1732348/…
-
最好的办法是使用 HTML 解析器。类似于jsoup.org。
-
@Sriram 确切的答案是:不要使用正则表达式来解析 HTML,以防这不够明显。
-
使用
"<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)</\\1>"。