python 全栈开发，Day134(爬虫系列之第1章-requests模块)

爬虫简介

概述

近年来，随着网络应用的逐渐扩展和深入，如何高效的获取网上数据成为了无数公司和个人的追求，在大数据时代，谁掌握了更多的数据，谁就可以获得更高的利益，而网络爬虫是其中最为常用的一种从网上爬取数据的手段。

网络爬虫，即Web Spider，是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

爬虫的价值

互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

爬虫的基本流程

python 全栈开发，Day134(爬虫系列之第1章-requests模块)

在爬虫的基本流程中，最难的不是解析数据，而是发送请求。为什么这么说呢？因为某些页面做了防爬虫机制，你连访问，都访问不了，那么剩下的流程就走不通了！

预备知识

http协议

HTTP请求由三部分组成，分别是：请求行，消息报头，请求正文。

HTTP响应也是由三个部分组成，分别是：状态行，消息报头，相应正文。

httpbin

如果一个人想学习爬虫技术，我会首先推荐他学会使用httpbin！

httpbin(官网|github)是一个很不错测试工具，你可以放心大胆的黑他，而不用担心他报复你。他有点像一个蜜罐，时刻等待着你的光临，然后根据你的请求，给你返回你想要的东西

直接访问页面： http://httpbin.org/get

python 全栈开发，Day134(爬虫系列之第1章-requests模块)

它将你的请求信息，直接展示到页面中！

args 表示get参数

headers 表示请求头

origin 表示你所在网络运营商的公网IP地址

url 表示访问的url

带一个参数

python 全栈开发，Day134(爬虫系列之第1章-requests模块)

requests模块

Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写，真正的为人类着想。

Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能，但是它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。

在Python的世界里，事情不应该这么麻烦。

Requests 使用的是 urllib3，因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池，支持使用 cookie 保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化。

（以上转自Requests官方文档）

安装

pip install requests

基本语法

requests模块支持的请求：

import requests

requests.get("http://httpbin.org/get")
requests.post("http://httpbin.org/post")
requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")

上面列举了几种请求方式，最常用的还是get和post

get请求

1. 基本请求

import requests
response=requests.get('https://www.jd.com/',)
 
with open("jd.html","wb") as f:
    f.write(response.content)

2. 含参数请求

import requests
response=requests.get('https://s.taobao.com/search?q=手机')
response=requests.get('https://s.taobao.com/search',params={"q":"美女"})

直接访问： https://s.taobao.com/search?q=手机

这样是没有问题，但是后面的条件是动态的。应该使用params，即使有多个参数，它会自动拼接url。

举例：

import requests

res = requests.get("https://s.taobao.com/search",
                   params={"q": "美女"},
                   headers={
                       'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
                   }

                   )
with open("res.html", "wb") as f:
    print(res.text)
    f.write(res.content)

使用Pycharm打开res.html，效果如下：

python 全栈开发，Day134(爬虫系列之第1章-requests模块)

3. 含请求头请求

示例1：

import requests
response=requests.get('https://dig.chouti.com/',
                      headers={
                         'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
                              }
                      )

示例2：

import requests

res=requests.post('https://www.lagou.com/jobs/positionAjax.json',
             headers={
                    'Referer':"https://www.lagou.com/jobs/list_python",
                     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

             },
             data={
                 'first':True,
                 'pn':2,
                 'kd':'java高级开发'
             },
             params={
                 'gj': '3年及以下',
                 'px': 'default',
                 'yx': '25k-50k',
                 'city': '北京',
                 'needAddtionalResult': False,
                 'isSchoolJob': 0
             }
             )

comapines_list=res.json()

print(comapines_list)

View Code