scrapy框架介绍:
scrapy框架是以python作为基础语言,实现网页数据的抓取,提取信息,保存的一个应用框架,可应用于数据提取、数据挖掘、信息处理和存储数据等一系列的程序中。
基本流程:
- 新建项目
- 明确目标
- 制作爬虫模块并开始爬取
- 提取目标数据
- 存储内容
流程架构图(注:下列绿线表示数据流向):
对于上述 scrapy 框架图解的基本工作流程,可以简单的理解为:
- Spiders(爬虫)将需要发送请求的url(Requests)经ScrapyEngine(引擎)提交给 Scheduler(调度器)处理
- 经 Scheduler(调度器)排序、入队处理后,经 ScrapyEngine、DownloaderMiddlewares(可选,主要有User_Agent、Proxy 代理)提交给Downloader(下载器)
- Downloader(下载器)向互联网发送请求,并接收下载响应(Responses)。将响应(Responses)经 ScrapyEngine、SpiderMiddlewares(可选)提交给 Spiders(爬虫)
- Spiders(爬虫)处理 Responses,提取数据并将数据经ScrapyEngine提交给ItemPipeline保存(可以是本地,也可以是数据库)
当一次完成上述 4 个步骤后,提取的 url 地址重新经 ScrapyEngine 提交给 Scheduler 并进行下一个循环,直到 无 url 请求程序时,则结束整个 scrapy 爬虫程序
下面介绍一下组件名称以及描述信息:
Scrapy Engine(引擎) :
Downloader Middlewares (下载中间件):
Spider Middlewares (Spider 中间件):