【问题标题】:Cannot Scrape Innertext of <div> Nodes Level无法抓取 <div> 节点级别的内部文本
【发布时间】:2014-01-09 01:25:32
【问题描述】:

我有这些&lt;div&gt;&lt;/div&gt; 结构。

<div class="RecentTrades">
    <div class="TradesRow TradesHeader">
        <div class="TradesDate">Date</div>
        <div class="TradesTime">Time</div>
        <div class="TradesPrice">Trade Prc</div>
        <div class="TradesVolume">Volume</div>
        <div class="TradesBuySell">Buy/Sell</div>
        <div class="TradesBid">Bid</div>
        <div class="TradesAsk">Ask</div>
        <div class="TradesValue">Value</div>
    </div>
    <div class="TradesRow TradesBG_G" style="color:#ff0000;">
        <div class="TradesDate">08-Jan-14</div>
        <div class="TradesTime">17:05:00</div>
        <div class="TradesPrice">83.80</div>
        <div class="TradesVolume">1,970,861</div>
        <div class="TradesBuySell">Sell*&nbsp;</div>
        <div class="TradesBid">83.85</div>
        <div class="TradesAsk">83.88</div>
        <div class="TradesValue">1.652<strong>M</strong></div>
    </div>
    <div class="TradesRow TradesBG_W" style="color:#ff0000;">
        <div class="TradesDate">07-Jan-14</div>
        <div class="TradesTime">16:30:11</div>
        <div class="TradesPrice">80.739</div>
        <div class="TradesVolume">40,000</div>
        <div class="TradesBuySell">Sell*&nbsp;</div>
        <div class="TradesBid">83.85</div>
        <div class="TradesAsk">83.88</div>
        <div class="TradesValue">32.30<strong>k</strong></div>
    </div>
</div>

这是我使用 HTMLAgilityPack 解析/抓取的代码。

private void btn_fetchTrades_Click(object sender, EventArgs e)
        {
            try
                    {
                        var fileName = @"..\..\bin\Debug\ModifiedPages\recent2.htm";
                        // Load HTML
                        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
                        doc.Load(fileName);

                        HtmlNode node = doc.DocumentNode.SelectSingleNode("div[@class='RecentTrades']"); 

                        using (FileStream fs = new FileStream(@"..\..\bin\Debug\ModifiedPages\" + "Trades.txt", FileMode.Append))
                        using (StreamWriter sw = new StreamWriter(fs))
                        {
                            // Iterate all rows in the relevant table
                            HtmlNodeCollection rows = node.SelectNodes(".//div");
                            for (int i = 0; i < rows.Count; ++i)
                            {
                                // Iterate all columns in this row
                                HtmlNodeCollection cols = rows[i].SelectNodes(".//div[@class='TradesDate']");
                                HtmlNodeCollection cols2 = rows[i].SelectNodes(".//div[@class='TradesTime']");
                                HtmlNodeCollection cols3 = rows[i].SelectNodes(".//div[@class='TradesPrice']");
                                HtmlNodeCollection cols4 = rows[i].SelectNodes(".//div[@class='TradesVolume']");
                                HtmlNodeCollection cols5 = rows[i].SelectNodes(".//div[@class='TradesBuy']");
                                HtmlNodeCollection cols6 = rows[i].SelectNodes(".//div[@class='TradesSell']");
                                HtmlNodeCollection cols7 = rows[i].SelectNodes(".//div[@class='TradesBid']");
                                HtmlNodeCollection cols8 = rows[i].SelectNodes(".//div[@class='TradesAsk']");
                                HtmlNodeCollection cols9 = rows[i].SelectNodes(".//div[@class='TradesValue']");
                                for (int j = 0; j < cols.Count; ++j)
                                    // Get the value of the column and print it
                                    sw.WriteLine(cols[j].InnerText + "," + cols2[j].InnerText + "," + cols3[j].InnerText + "," +
                                                 cols4[j].InnerText.Replace(",", "") + "," + cols5[j].InnerText + "," + cols6[j].InnerText + "," + cols7[j].InnerText + 

"," + cols8[j].InnerText + "," + cols9[j].InnerText + "," + "922");
                            }
                            sw.Flush();
                            sw.Close();
                            fs.Close();
                        }
                    }
                    catch (Exception ex)
                    {
                        MessageBox.Show(ex.Message);
                    }
        }

但我不断收到“对象引用未设置为对象的实例”。我一定是在节点上做错了,但经过这么多小时后我无法弄清楚。如果你们中的任何人都可以调查它,那就太好了。非常感谢!

【问题讨论】:

  • 在错误前的行设置断点...用您的监视调试窗口检查下一行。

标签: c# html-agility-pack


【解决方案1】:

您是否知道在您的 HTML 中,您有一个类为“BuySell”的节点,但您在代码中分别查找 Buy 和 Sell?这样就可以了。请使用您的调试器。

【讨论】:

  • 天啊! :((谢谢你!我太粗心了!:(
  • 我是新手,不擅长使用调试器,但我一定会研究它。非常感谢!
  • Codenoire,你知道为什么代码只解析第一个内部&lt;div&gt;&lt;/div&gt;吗?我只得到标题。
  • 尝试将“++i”更改为“i++”
  • 改成“i++”后还是一样。
猜你喜欢
  • 1970-01-01
  • 2018-11-20
  • 1970-01-01
  • 2020-11-10
  • 2020-11-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多