初学python 爬虫

在python3中有一个 urllib模块，使用urllib 这个模块来进行简单的爬虫。

from urllib import request #引用这个模块

import re

def getObject(url):

urlObject = request.urlopen(url) #打开一个url,获得http请求的上下文，也就是 http reponse 对象

return getObject

def getjpglist(data): #使用正则表达式，匹配图片路径

list = re.findall(r'src = https.+?.jpg',data)

return list

httpObject = getObject("https://www.csdn.net/") #得到这个http reponse对象

#httpObject .geturl() 可以得到地址

#httpObject .info() 获得headers

#httpObject .getcode() 获得http的状态

data = httpObject .read().decado('utf-8') #得到内容，得到内容之后我们就可以用正则筛选自己想要的东西

jlist = getjpglist(data)

global n #声明一个全局变量

for jpg in jlist : #循环得到的图片地址的集合，打印出来

print(list)

n = n+1

# 如果想要下载图片可以使用 request.urlretrieve() 方法

初学python 爬虫