【发布时间】:2015-02-04 17:02:53
【问题描述】:
之前,我用这个代码,它可以得到网站的xpath。但是,今天我调试代码,我看到,它没有从网站:webtruyen.com 获取数据 html。我尝试检查 website.com/robots.txt。但它不怀疑。我尝试添加代理来获取数据,但返回数据为空。我不知道如何从网站 webtruyen.com 获取 xpath。谁帮我?我想知道如何从网站http://webtruyen.com 读取数据。
我的代码:
string url = "http://webtruyen.com";
var web = new HtmlWeb();
var doc = web.Load(url);
String temps = "";
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
temps = node.InnerHtml;
}
我调试,返回:
- InnerHtml 'doc.DocumentNode.InnerHtml' 引发了类型为“System.NullReferenceException”的异常字符串 {System.NullReferenceException}
我的代码使用代理:
string url = "http://webtruyen.com";
var web = new HtmlWeb();
webGet.UserAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)";
var doc = web.Load(url);
String temps = "";
foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a"))
{
temps = node.InnerHtml;
}
【问题讨论】:
-
也许您需要启用 cookie,请参阅链接问题。
-
@Jodrell 我尝试使用 cookie,但它没有获取 html。你能为我的问题提供代码吗?
-
尝试 node.Attributes["href"].Value
-
@SuncoastOwner 谢谢。但我在 var doc = web.Load(url); 处有错误它没有为 var doc 获得价值。我在调试中看到:Id 'doc.DocumentNode.Id' 引发了类型为 'System.Exception' 字符串 {System.Exception} 的异常。你会看到错误:运行此代码时不要加载加载网址。
标签: c# xpath html-agility-pack