【发布时间】:2014-05-19 14:15:00
【问题描述】:
我试图在网上找到解释如何解析网页的教程(维基百科正在研究),使用 Linq ...类似这样的使用 System.Linq 的东西:
var reviewBodyChildNodes = newsNode.ChildNodes
.Single(x => x.Id == "review-body")
.ChildNodes;
或
newMovie.Title = div.Descendants()
.Where(i =>
i.Name == "h4" &&
i.GetAttributeValue("itemprop", "") == "name"
)
.FirstOrDefault()
.InnerText
.Trim();
但我发现的只是使用xml数据作为示例的XmlDocument和XmlElement......它与上面的东西有什么不同?我在这里想念什么?我想在这个页面上做一些解释:
http://www.codeproject.com/Articles/691119/Html-Agility-Pack-Massive-information-extraction-f
请帮忙。
【问题讨论】:
-
格式良好的 html 应该与用于 linq-to-xml 查询的 xml 几乎相同
-
是的,但是某些 Xpath 根本不起作用......在评估 DOM 元素的语句处调试中断。我尝试了 firebug、chrome 工具……Xpath 是正确的……我只是不知道如何继续。
标签: c# linq visual-studio parsing screen-scraping