爬虫初步六

Scrapy库的使用

1. 什么是scrapy框架？

它是一个用的最多的一个爬虫框架，相当于一个爬虫模版，是爬虫代码的半成品。主要针对网站级的爬虫规模。具有可编写，可扩展的功能。

2. 框架的具体结构图

爬虫初步六

整个过程是这样的：spiders获取初始的url(程序员指定某个网站),产生requests。通过引擎放在scheduler上面。scheduler发现仅有一个url便立马通过引擎去downloader下载网页，downloader返回response通过引擎给spiders分析，是items就给item pipeline，是requests就在放到schedule上面。

注意：这里面一般spider与item pipeline可以修改。

通过上面的过程，整个网站的所有网页资源都可以获取。

爬虫初步六

3. requests库与scrapy库的比较

requests一般针对单个网页信息的提取

scrapy针对网站信息提取

但是request是个功能函数scrapy是个框架，灵活度肯定是requests的高，也就是可定制深度高。

4. scrapy命令

在命令行（cmd）中输入：

爬虫初步六

5.实例：

要求：爬取网页：http://python123.io/ws/demo.html

文件名称：demo.html

①建立工程

爬虫初步六

这里注意：你想在哪个文件夹里建立工程，你就在哪个文件夹里打开shell。输入命令，就可以在这个文件夹下建立工程。

这里在E盘建立命令得到：

爬虫初步六

②产生爬虫

在当前文件夹里打开shell输入命令：

爬虫初步六

在文件夹里就会产生一个：demo爬虫文件：

爬虫初步六

这个demo.py就是一个类文件:

爬虫初步六

③配置spider

爬虫初步六

在属性里面把名字，起始的网站赋值。

在parse函数里把数据流传来的的response的网页内容写在一个文件夹里。以备后续使用。

总的来说，整个过程就是：

爬虫初步六

这里在对这就个关键的爬虫数据类做出说明：

爬虫初步六

爬虫初步六

爬虫初步六

爬虫初步六

爬虫初步六

另外。spider提供了很多的解析方法：

如：BeautifulSoup，xml,CSS等;

这里介绍一下CSS的解析方法：

爬虫初步六

相关文章：

2022-12-23
2021-08-18
2021-07-05
2022-01-06
2021-12-31
2021-08-07
2021-08-18
2021-07-11

猜你喜欢

2021-04-20
2021-09-13
2022-12-23
2022-12-23
2021-07-09
2021-09-18
2022-02-02

相关资源

下载 2021-06-05
下载 2021-06-05
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode