【发布时间】:2013-06-19 08:24:05
【问题描述】:
我正在阅读 C# 中的网站并以字符串形式获取内容....有些网站没有格式良好的 html 结构。
我尝试了HtmlAgilityPack 和其他一些人,但他们需要格式良好的 html,这在我的情况下是不可能的。
现在我需要一种非常简单的方法来通过 Div 或 span id/class 读取它。
这是我的 html http://jsfiddle.net/bwJU7/
请给我一个简单的 C# 代码
div class="item "
并在我的 html 中获取 title、price、photos 和 description。
【问题讨论】:
-
我使用了 HtmlAgilityPack,但它不适用于所有网站...请离开 HtmlAgilityPack ....它的 error.count 超过 5000
-
你确定 HtmlAgilityPack 不会做你想做的事吗?我发现它非常容忍格式错误的 HTML。
标签: c# html .net parsing html-agility-pack