【问题标题】:Reading html from online website C#从在线网站 C# 读取 html
【发布时间】:2013-06-19 08:24:05
【问题描述】:

我正在阅读 C# 中的网站并以字符串形式获取内容....有些网站没有格式良好的 html 结构。

我尝试了HtmlAgilityPack 和其他一些人,但他们需要格式良好的 html,这在我的情况下是不可能的。

现在我需要一种非常简单的方法来通过 Div 或 span id/class 读取它。

这是我的 html http://jsfiddle.net/bwJU7/

请给我一个简单的 C# 代码

div class="item " 

并在我的 html 中获取 titlepricephotosdescription

【问题讨论】:

  • 我使用了 HtmlAgilityPack,但它不适用于所有网站...请离开 HtmlAgilityPack ....它的 error.count 超过 5000
  • 你确定 HtmlAgilityPack 不会做你想做的事吗?我发现它非常容忍格式错误的 HTML。

标签: c# html .net parsing html-agility-pack


【解决方案1】:

如果您将内容加载为字符串并且不希望其中有任何常规结构,那么Regular Expressions 是您的朋友。

这样的事情可能会对你有所帮助:

String content = "Your content goes here";

var regex = new Regex("<div(?:.*?)class=\"item\"[^>]*>(.*?)</div>");
foreach (Match div in regex.Matches(content))
{               
    Console.WriteLine(div.Groups[0].Value);
}

【讨论】:

  • to͇̹̺ɲ̴ȳ̳th̘ë͖̉p̯͍̭o̚n̐y̡h̸̡̪̯ͨ͊̽̅̾ȩ̸̡̬̩̪̯̾͛ͪ̈ͨ͊̽̅̾͘ȩ̬̩̾͛ͪ̈͘c̷̙̝͖ͭ̏ͥͮ͟oͮ͏̮̪̝͍m̖͊̒ͪͩͬ̚̚͜ȇ̴̟̟͙̞ͩ͌͝sə span>
猜你喜欢
  • 2017-04-16
  • 2023-03-21
  • 1970-01-01
  • 2011-06-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多