【发布时间】:2015-08-23 07:48:46
【问题描述】:
我正在尝试抓取网页(Pub Med)以查看特定文章中出现了多少引用(有些文章有引用,有些没有)。但是,我现在遇到的问题是 div 都是嵌套的并且命名相同,所以我无法弄清楚获取元素需要什么代码。
到目前为止,我已经尝试使用 contains 来查看是否可以全部捕获并从那里挖掘到节点,但这没有奏效。
.SelectNodes("//div[contains(@class,'portlet_title')]");
我也尝试过复制 XPath,但结果是 null
.SelectNodes("//*[@id="disc_col"]/div[3]/div[1]/div/h3/span");
任何帮助将不胜感激,因为我不是 Xpath 的大师。
作为参考,符合我标准的页面是:
http://www.ncbi.nlm.nih.gov/pubmed/?term=23489346(右手边说被 * 文章引用)。
我还浏览了其他一些回复,但它们似乎都是针对不同命名 Div 的结果(即get all the divs ids on a html page using Html Agility Pack)。要么我不明白如何正确使用它,要么我的问题不同。
再次感谢。
【问题讨论】:
标签: c# html html-agility-pack