首先我们先学会urllib2的类库的使用
下面是代码
返回的数据就是网站的源码,下面是一部分
看到百度一下我就只知道我们成功了
这样虽然能直接获得网页源码可是也暴露除了我们的ip,对于我们以后的开发不利
我们都知道用户每一次访问网页的时候都会先上代理服务器发送然后在由代理服务器向网站服务器发送,然后依次传到用户端上,这时就有了怎区别服务器返回的数据一定是你的呢,这时候就出现了userAgent的概念,学javaee的都知道,我们每一次访问网站客户端都会想服务端发送一个请求头,把一些必要的信息交给服务器,这个useragent就在这请求头中,
详细信息请参考这篇文章
这里我用了一个工具叫做
至于怎么使用大家可以去百度一下,有很多详细的介绍
用来抓包,效果不错,相当于一个本地的代理服务器,我们来抓一下刚才写的程序,我们的user-agent的
如下图
这是我们抓到的头,和一般浏览器访问的头是不一样的,这样就会暴露出我们真是的身份,这时我们就要伪装一下我们的头,
如下图
接下来我向大家讲一下如何通过get获得数据
众所周知用get方式传送数据会显示在网址中。这就给我们提供了方便,先看一个入门
这是一个百度首页
大家仔细观看百度搜索时网址出现的变化
比如我们搜索关为123、345、567等等,仔细观察
不知大家发现了没有,不同的关键字,网址改变并不是很多,所以我们就拿到了关键网址
发现不变的时www.baidu.com/s?wd=关键字
这只是抛砖引玉,大家来看看下面的贴吧爬取的基本思路
要想爬取一个贴吧,并不是很难,无非是下一页,下一页,上一页,而已,其他的和上面差不多相同
具体操作如下
我们就拿爬取lol贴吧为例
代码如下: