【发布时间】:2015-05-27 21:37:02
【问题描述】:
我想从网页中提取所有标题标签的内容。 我试过这个正则表达式
(?i)<h([1-6].*?)>(.*?)</h([1-6])>
问题是如果head标签是这样的-
<h1><I>Contents</I></h1>
它给了我输出 -
<I>Contents</I>.
我希望它只打印
内容
在输出中。 我应该如何修改?
【问题讨论】:
-
@nikis 我已经使用正则表达式完成了我剩下的项目工作。
-
@alice 编辑了答案,测试一下
标签: java html regex pattern-matching