【发布时间】:2012-08-12 11:23:51
【问题描述】:
我有这段 HTML:
</TABLE>
<HR>
<font size="+1"> Method and apparatus for re-sizing and zooming images by operating directly
on their digital transforms
</font><BR>
我正在尝试捕获font 标记内的文本。这是我的正则表达式:
Regex regex = new Regex("</TABLE><HR><font size=\"+1\">(?<title>.*?)</font><BR>", RegexOptions.Singleline | RegexOptions.IgnoreCase);
Match match = regex.Match(data);
string title = match.Groups["title"].Value;
但是我得到空标题。谁能告诉我我错过了什么?
【问题讨论】:
-
正则表达式是错误的工具。正则表达式无法以任何程度的可靠性解析 HTML(或 XML)。使用 HTML 解析器,请参阅 this question。
-
@Richard:我明白这一点。但是,我要解析的网站具有固定的结构,因此我想使用 Regex 本身。