【发布时间】:2016-07-02 12:43:43
【问题描述】:
我正在使用 html 敏捷包从网站获取一些数据,现在出现了一点问题。我想从这个 div 中获取一些数据:
<div class="container middle">
<div class="details clearfix">
<dl>
<dt>Gara</dt>
<dd><a href="/national/china-pr/csl/2016/regular-season/r34227/">Super League</a></dd>
<dt>Data</dt>
<dd><a href="/matches/2016/07/02/"><span class='timestamp' data-value='1467459300' data-format='d mmmm yyyy'>2 luglio 2016</span></a></dd>
<dt>Game week</dt>
<dd>15</dd>
<dt>calcio di inizio</dt>
<dd>
<span class='timestamp' data-value='1467459300' data-format='HH:MM'>13:35</span>
(<span class="game-minute">FP'</span>)
</dd>
</dl>
</div>
问题是container middle 和details clearfix 类有两个div,我只想获取上面粘贴的特定div 的内容。这个 div 每个标签都有一个 dl 标签。
这是我的代码:
var url = "http://it.soccerway.com/matches/2016/07/02/china-pr/csl/henan-jianye/beijing-guoan-football-club/2207361/";
var doc = new HtmlDocument();
doc.LoadHtml(new WebClient().DownloadString(url));
var infoDiv = doc.DocumentNode.SelectSingleNode("//div[@class='block_match_info real-content clearfix ']");
var matchDetails = infoDiv.SelectSingleNode("//div[@class='container middle']");
这会返回错误的结果,尤其是这样:
<div class="container middle">
<h3 class="thick scoretime score-orange">
0 - 0
</h3>
这是完整的source 代码。
【问题讨论】:
-
你到底想得到什么?? 的内部 HTML查看您的代码和完整的源代码,我想说,您得到的正是您想要的。等等...我刚刚看到有两个
<div class="container middle">。你想得到第二个div,对吗?@spirit,是的,我也对如何获取此特定内容感兴趣:<dt>calcio di inizio</dt> <dd> <span class='timestamp' data-value='1467459300' data-format='HH:MM'>13:35</span> (<span class="game-minute">FP'</span>) </dd>您使用HtmlDocument类的哪个程序集?System.Windows.Forms?好的。我去看看。
标签: c# regex html-agility-pack