【问题标题】:Library to extract data from html string从 html 字符串中提取数据的库
【发布时间】:2012-01-22 19:56:01
【问题描述】:

是否有任何免费/开源的 c# 库可以从 html 中提取数据?

鉴于下面的输入

<div style="...">
 text part 1
</div>
<div style="...">
 text part 2
</div>

我希望输出是:

text part 1 text part 2

【问题讨论】:

    标签: c# .net html html-parsing


    【解决方案1】:

    是的,您可以使用 HtmlAgilityPack 来使用 Xpath 查询解析 HTML,就像它是 XML 一样。

    【讨论】:

      【解决方案2】:

      你可以使用HtmlAgilitiPack非常好的库。

      然后:

      public string StripHTMLTags(string str)
              {
                  StringBuilder pureText = new StringBuilder();
                  HtmlDocument doc = new HtmlDocument();
                  doc.LoadHtml(str);
      
                  foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
                  {
                      pureText.Append(node.InnerText);
                  }
      
                  return pureText.ToString();
              }
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-05-21
        • 1970-01-01
        • 2012-06-07
        • 1970-01-01
        相关资源
        最近更新 更多