【发布时间】:2013-04-20 00:04:59
【问题描述】:
我在 C# 上遵循 Regex 及其导致的错误:C# Unrecognized escape sequence on \w \. \/ 。
string reg = "<a href=\"[\w\.\/:]+\" target=\"_blank\">.?<img src=\"(?<imgurl>\w\.\/:])+\"";
Regex regex = new Regex(reg);
我也试过
string reg = @"<a href="[w./:]+" target=\"_blank\">.?<img src="(?<imgurl>w./:])+"";
但是这样字符串“结束”在 href=""-char
谁能帮帮我?
【问题讨论】:
-
你会建议什么而不是使用正则表达式?尝试在 html 页面中获取大量项目时,没有太多选择。
-
使用旨在解析它的东西,HTML Agility Pack 是一个常见的。它会解析出所有的 html 标记,让你把它们拆开,然后用它们做任何你需要的事情。
-
我正在使用 HTML Agility 包,但因为我正在解析的网站似乎不是动态的,所以我认为他们手动发布帖子。这意味着有时网站结构会发生变化。所以我决定对那些我看到的变化的部分尝试正则表达式。