爬虫开发的步骤:分析网站的结构---了解我们的需求---请求的分析

    所有的爬虫都是模拟浏览器的请求。

    爬虫:数据采集 互联网 工具获取我们想要的数据   加密,http  com控件 逆向 公开数据  
  - 数据清洗 
  - 数据挖掘
  - 数据分析
- 分析网站结构
- 了解我们的需求

- 请求分析

 在处理数据的时候一般用正则,因为正则可以处理所有类型的有规则和无规则的文本数据。正则可以取出所有的数据。

  -1. 判断数据是否在当前请求的网页源代码当中(有三种可能性)

爬虫杂记2(爬虫,数据,网站)

  -2. 判断数据是否为ajax异步加载(ajax异步请求是js中的,通过一个请求来实现异步请求(也可以说是多个请求))

爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


  - 3.数据混淆/数据加密(通过JS加密,如你在网页上面看到的是1,但是在源代码中看到的是aa,这个是通过服务器把数据加密,如服务器把一个1加密成aa,然后再发送到浏览器,浏览器只能获取到aa,然后浏览器再通过JS解密,把aa解成1在页面上显示。这个是最复杂的,最难的)


    python是通过缩进来写函数体的,并不需要{}这个括号,python的标准的缩进是四个空格,也可以用制表符tab,一个tab就是四个空格,要注意的是要么要用四个空格,要么要用一个tab,不能两个混用,混用的话代码就废了。。。

爬虫杂记2(爬虫,数据,网站)



爬虫杂记2(爬虫,数据,网站)

爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)



爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)



爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)


爬虫杂记2(爬虫,数据,网站)





相关文章: