【发布时间】:2012-01-22 19:56:01
【问题描述】:
是否有任何免费/开源的 c# 库可以从 html 中提取数据?
鉴于下面的输入
<div style="...">
text part 1
</div>
<div style="...">
text part 2
</div>
我希望输出是:
text part 1 text part 2
【问题讨论】:
标签: c# .net html html-parsing
是否有任何免费/开源的 c# 库可以从 html 中提取数据?
鉴于下面的输入
<div style="...">
text part 1
</div>
<div style="...">
text part 2
</div>
我希望输出是:
text part 1 text part 2
【问题讨论】:
标签: c# .net html html-parsing
是的,您可以使用 HtmlAgilityPack 来使用 Xpath 查询解析 HTML,就像它是 XML 一样。
【讨论】:
你可以使用HtmlAgilitiPack非常好的库。
然后:
public string StripHTMLTags(string str)
{
StringBuilder pureText = new StringBuilder();
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(str);
foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
{
pureText.Append(node.InnerText);
}
return pureText.ToString();
}
【讨论】: