例如舆情系统:
  获取汽车之家新闻放到自己数据库里,创建自己的app,发布内容,注明来源,自己创业。

URL指定内容获取到
    - 发送Http请求:http://www.autohome.com.cn/news/
    - 基于正则表达式获取内容 

Python实现:

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.autohome.com.cn/news/')
response.text

obj = BeautifulSoup(response.text,...)
标签对象 = obj.find('a') # 找到匹配成功的第一个标签
标签对象.find(...)

[标签对象,标签对象,]= obj.find_all('a') # 找到匹配成功的所有标签

 

示例一:爬取汽车之家新闻

requests
	
	obj = requests.get("url")
	obj.content
	obj.encoding = "gbk"
	obj.text
	
	
	soup = beautifulsoup(obj.text,'html.parser')
	标签对象 = soup.find(name='xx')
	[标签对象,标签对象,] = soup.find_all(...)
	
	
	标签对象.text
	标签对象.attrs
	标签对象.get(...)
	
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.autohome.com.cn/news/')     # socket发送的是字节类型
# # print(response.text)    # 字符串,编码设置不对出现乱码
# print(response.content)     # response.content获取的是字节类型
response.encoding = 'gbk'
# print(response.text)        # response.text拿到的是文本信息

# python有个内置解析器html.parser,html页面的<html lang='en'...></html>对象通过html.parser解析出来
soup = BeautifulSoup(response.text,'html.parser')
tag = soup.find(id='auto-channel-lazyload-article')
# h3 = tag.find(name='h3',class_='c1')     # name是标签名。标签名不能直接写,class='c1'直接报错,写成class_='c1',或者写成attrs={'class':'c1'}
# h3 = tag.find(name='h3',attrs={'class':'c1'})
h3 = tag.find(name='h3')
print(h3)
练习一:获取一个新闻

相关文章: