爬虫基本操作、requests和BeautifulSoup

例如舆情系统：
　　获取汽车之家新闻放到自己数据库里，创建自己的app，发布内容，注明来源，自己创业。

URL指定内容获取到
    - 发送Http请求：http://www.autohome.com.cn/news/
    - 基于正则表达式获取内容

Python实现：

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.autohome.com.cn/news/')
response.text

obj = BeautifulSoup(response.text,...)
标签对象 = obj.find('a') # 找到匹配成功的第一个标签
标签对象.find(...)

[标签对象,标签对象,]= obj.find_all('a') # 找到匹配成功的所有标签

示例一：爬取汽车之家新闻

requests
	
	obj = requests.get("url")
	obj.content
	obj.encoding = "gbk"
	obj.text
	
	
	soup = beautifulsoup(obj.text,'html.parser')
	标签对象 = soup.find(name='xx')
	[标签对象,标签对象,] = soup.find_all(...)
	
	
	标签对象.text
	标签对象.attrs
	标签对象.get(...)

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.autohome.com.cn/news/')     # socket发送的是字节类型
# # print(response.text)    # 字符串，编码设置不对出现乱码
# print(response.content)     # response.content获取的是字节类型
response.encoding = 'gbk'
# print(response.text)        # response.text拿到的是文本信息

# python有个内置解析器html.parser，html页面的<html lang='en'...></html>对象通过html.parser解析出来
soup = BeautifulSoup(response.text,'html.parser')
tag = soup.find(id='auto-channel-lazyload-article')
# h3 = tag.find(name='h3',class_='c1')     # name是标签名。标签名不能直接写，class='c1'直接报错，写成class_='c1',或者写成attrs={'class':'c1'}
# h3 = tag.find(name='h3',attrs={'class':'c1'})
h3 = tag.find(name='h3')
print(h3)

练习一：获取一个新闻