Selenium是自动化测试工具,它支持各种浏览器包括 Chrome,Safari,Firefox 等主流界面式浏览器还有PhantomJS 无界面的浏览器,它可以方便地实现Web界面的测试,下面就是使用selenium的爬虫实验
首先需要安装PhantomJS,直接在百度上搜索就可以找到,也可以安装chrome浏览器,然后在安装chromedriver,链接如下
http://chromedriver.storage.googleapis.com/index.html,然后点击,查看对应的chrome,并将chromedriver安装在chrome.exe的
目录下,记得需要将chrome或PhantomJS的.exe路径加入path中,
接下来我就用chrome简单实验一下
好了那我们正式开始,我们的实验是关于起点小说网的爬取,首先引入需要的模块
(特别注意这个要区分大小写,我没注意搞了好久)
然后找到起点的主页,定位搜索框,在搜索框内输入所要的关键词,然后点击搜索,获取搜索后的链接,调用get_info函数
在get_info函数中实现多本小说情况和链接的获取,保存于txt中,并调用nextpage函数进行翻页,确定翻的页数中对
(创建hello.html为了更好的确定文本的位置)
XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历
这个函数用于翻页,获取下一页的链接
结果如下
好了这就是我们今天简单的实验