【问题标题】:Extract multiple values from html page for c#从 c# 的 html 页面中提取多个值
【发布时间】:2019-07-21 05:32:25
【问题描述】:

我有这个来自 html 页面源代码

<h5 class="icn-venue"><a href="/venues/mmxchi-tavernita-venue" class="pin-red place" data-lat="41.8938" data-lon="-87.633" rel="map">Tavernita</a></h5>

页面源上的这些标签之间有 10 个这样的值。 我想在“h5”标签之间提取值。 Class="icn-venue" 对于所有值都保持不变。 我尝试拆分标签然后存储,但代码似乎不起作用。

【问题讨论】:

  • 您是否尝试过使用HTML Agility Pack
  • 我不知道如何在代码中使用它

标签: c# html html-parsing


【解决方案1】:

您可以使用htmlAgilityPack

HtmlDocument doc = new HtmlDocument();
doc.Load(yourStream);

List<string> lst=doc.DocumentNode.SelectNodes("//h5[class='icn-venue']")
                    .Select(x=>x.InnerHtml)
                    .ToList();

【讨论】:

    【解决方案2】:

    HTML Agility Pack 是处理 HTML 的绝佳工具:http://htmlagilitypack.codeplex.com/

    它至少可以让获取您需要的值并进行替换更容易一些。

    包含使用 HTML Agility Pack 的链接:如何使用 HTML Agility pack

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-06-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-05-30
      • 2012-08-01
      相关资源
      最近更新 更多