【发布时间】:2016-04-29 02:53:23
【问题描述】:
我正在使用 html 敏捷包创建网络爬虫,我有一个关于分页的问题。 我在网上搜索了一些可以帮助我前进的东西,但我离我不远。我需要抓取所有分页页面的内容。是否有任何机制可以使用 htmlagility 或任何帮助来做到这一点。 我还发现了像 selenium 这样的其他应用程序并对其进行了研究。有没有办法我可以利用硒以及 htmlagility 来抓取? 任何形式的帮助将不胜感激。 谢谢
【问题讨论】:
-
您当然可以使用 HtmlAgility 页面来获取页面上的所有链接,包括分页链接,但您的问题过于宽泛而无法回答。你试过什么?下面是一个使用 HtmlAgility 包爬取网站的示例:blog.abodit.com/2010/03/…
-
谢谢伊恩,我已经使用 HAP 来抓取网站,但我没有意识到分页的东西。所以只是想获得新的想法
-
分页通常被实现为只是一堆链接(1 2 3 ... n),有时会随着您的探索而发展(... 4 5 6 ...)或者你的意思是别的?
-
我遇到了你说的第二种类型,我想如果我能刮掉这个我可以做任何其他类型。
标签: c# selenium-webdriver web-scraping html-agility-pack