网络爬虫框架-Scrapy

网络爬虫框架-Scrapy

简介：开源的Python爬虫框架，用于抓取web站点并从页面中提取结构化的数据；

用途广泛，可用于数据挖掘、监测和自动化测试

Scrapy优点：

Scrapy高级特性：

Scrapy架构:

Scrapy的安装：

`conda install -c conda-forge scrapy`

检测是否安装成功：`scrapy bench`

创建工程：`scrapy startproject tutorial(项目名称)`

目录结构：

Scrapy使用步骤：

定义Item，构造爬取的对象(可选）

object1_name = scrapy.Field() 
object2_name = scrapy.Filed()
object3_name = scrapy.Field()
#创建若干个自定义爬取对象的名称

编写Spider，爬虫主体

cd projectname
scrapy genspider spidername http://www.baidu.com/
#spidername(自定义Spider主体的文件名称)，后接需要爬取的网站url。

编写配置和Pipeline，用于处理爬取的结果(可选）
- 目的：处理解析的Item，将结果保存为CSV文件
- 在文件-setting.py中配置CommentPipeline，其中，优先级为300，优先级的数值越小，优先级越高。　　
- 将文件-pipelines.py中编写的类添加到文件-setting.py中设置优先级数值。
- 在文件-pipelines.py中定义的类，添加/编写open_spider()，close_spider()、process_item()函数。

执行爬虫Spider：

scrapy crawl Spidername
#Spidername和Sipder主体的文件名称一致