例如舆情系统:
获取汽车之家新闻放到自己数据库里,创建自己的app,发布内容,注明来源,自己创业。
URL指定内容获取到
- 发送Http请求:http://www.autohome.com.cn/news/
- 基于正则表达式获取内容
Python实现:
import requests
from bs4 import BeautifulSoup
response = requests.get('http://www.autohome.com.cn/news/')
response.text
obj = BeautifulSoup(response.text,...)
标签对象 = obj.find('a') # 找到匹配成功的第一个标签
标签对象.find(...)
[标签对象,标签对象,]= obj.find_all('a') # 找到匹配成功的所有标签
示例一:爬取汽车之家新闻
requests
obj = requests.get("url")
obj.content
obj.encoding = "gbk"
obj.text
soup = beautifulsoup(obj.text,'html.parser')
标签对象 = soup.find(name='xx')
[标签对象,标签对象,] = soup.find_all(...)
标签对象.text
标签对象.attrs
标签对象.get(...)
import requests from bs4 import BeautifulSoup response = requests.get('http://www.autohome.com.cn/news/') # socket发送的是字节类型 # # print(response.text) # 字符串,编码设置不对出现乱码 # print(response.content) # response.content获取的是字节类型 response.encoding = 'gbk' # print(response.text) # response.text拿到的是文本信息 # python有个内置解析器html.parser,html页面的<html lang='en'...></html>对象通过html.parser解析出来 soup = BeautifulSoup(response.text,'html.parser') tag = soup.find(id='auto-channel-lazyload-article') # h3 = tag.find(name='h3',class_='c1') # name是标签名。标签名不能直接写,class='c1'直接报错,写成class_='c1',或者写成attrs={'class':'c1'} # h3 = tag.find(name='h3',attrs={'class':'c1'}) h3 = tag.find(name='h3') print(h3)