在python3中有一个 urllib模块,使用urllib 这个模块来进行简单的爬虫。

from urllib import request     #引用这个模块

import re

 

def  getObject(url): 

 urlObject = request.urlopen(url)     #打开一个url,获得http请求的上下文,也就是 http reponse 对象

return getObject

def getjpglist(data):                #使用正则表达式,匹配图片路径

 list = re.findall(r'src = https.+?.jpg',data)

 return list

 

httpObject = getObject("https://www.csdn.net/")      #得到这个http reponse对象

#httpObject .geturl()    可以得到地址

#httpObject .info()  获得headers

#httpObject .getcode()   获得http的状态

data = httpObject .read().decado('utf-8')   #得到内容,得到内容之后我们就可以用正则筛选自己想要的东西

     jlist = getjpglist(data)

global n    #声明一个全局变量

for jpg in jlist :        #循环得到的图片地址的集合,打印出来

  print(list)

  n = n+1

# 如果想要下载图片可以使用   request.urlretrieve() 方法

初学python 爬虫

初学python 爬虫

 

 

 

 

 

 

 

 

 

相关文章:

  • 2021-08-04
  • 2021-08-14
  • 2021-11-09
  • 2022-01-12
  • 2021-12-05
  • 2021-08-22
  • 2021-12-18
猜你喜欢
  • 2021-09-22
  • 2021-09-18
  • 2021-07-05
  • 2022-01-06
  • 2022-01-04
  • 2021-08-04
  • 2021-08-04
相关资源
相似解决方案