【发布时间】:2013-11-13 10:26:34
【问题描述】:
我需要解析一个 HTML 字符串并删除所有只包含空子元素的元素。
例子:
<P ALIGN="left"><FONT FACE="Arial" SIZE="12" COLOR="#000000" LETTERSPACING="0" KERNING="1"><B></B></FONT></P>
不包含任何信息,必须替换为</br>
我写了一个这样的正则表达式:
<\w+\b[^>]*>(<\w+\b[^>]*>\s*</\w*\s*>)*</\w*\s*>
但问题是它只捕获了三个级别中的两个级别。在上面的示例中,<p> 元素(最外面的元素)未被选中。
你能帮我解决这个正则表达式吗?
【问题讨论】:
-
为正则表达式+HTML问题的反对票做好准备
-
字体元素自 HTML3 以来已被弃用,为什么您仍在使用它?
-
stackoverflow.com/q/3129738/612202 你应该更喜欢得票更多的答案。
-
这是重点,我想摆脱它。我有一个较旧的数据库,从中获取此信息。有一些格式保存为文本的注释,我想摆脱无用的元素和字体元素。我用跨度替换它们
标签: javascript jquery html regex