scrapy学习笔记（一）

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。其架构如下

scrapy学习笔记（一）

Scrapy主要包括了以下组件：

引擎(Scrapy)

用来处理整个系统的数据流, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器

下载器把资源下载下来，并封装成应答包(Response)

爬虫解析Response

解析出实体（Item）,则交给实体管道进行进一步的处理

解析出的是链接（URL）,则把URL交给调度器等待抓取

scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）

items.py 设置数据存储模板，用于结构化数据，如：Django的Model

pipelines 数据处理行为，如：一般结构化的数据持久化

settings.py 配置文件，如：递归的层数、并发数，延迟下载等

spiders 爬虫目录，如：创建文件，编写爬虫规则

命令行工具(Command line tools)

startproject

settings

runspider

shell

fetch

view

version

crawl

check

list

edit

parse

genspider

deploy

bench

scrapy startproject myproject
scrapy genspider mydomain mydomain.com
$ scrapy crawl myspider
$ scrapy check -l
$ scrapy list
$ scrapy edit spider1

语法: scrapy fetch <url>

$ scrapy fetch --nolog http://www.example.com/some/page.html

语法: scrapy view <url>

在浏览器中打开给定的URL，并以Scrapy spider获取到的形式展现。有些时候spider获取到的页面和普通用户看到的并不相同。因此该命令可以用来检查spider所获取到的页面，并确认这是您所期望的。

$ scrapy view http://www.example.com/some/page.html
$ scrapy shell http://www.example.com/some/page.html

语法: scrapy parse <url> [options]

获取给定的URL并使用相应的spider分析处理。如果您提供 --callback 选项，则使用spider的该方法处理，否则使用 parse 。

--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider

--a NAME=VALUE: 设置spider的参数(可能被重复)

--callback or -c: spider中用于解析返回(response)的回调函数

--pipelines: 在pipeline中处理item

--rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数

--noitems: 不显示爬取到的item

--nolinks: 不显示提取到的链接

--nocolour: 避免使用pygments对输出着色

--depth or -d: 指定跟进链接请求的层次数(默认: 1)

--verbose or -v: 显示每个请求的详细信息

$ scrapy parse http://www.example.com/ -c parse_item

语法: scrapy settings [options]

$ scrapy settings --get BOT_NAMEscrapybot$ scrapy settings
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY0

在未创建项目的情况下，运行一个编写在Python文件中的spider。

语法: scrapy runspider <spider_file.py>

$ scrapy runspider myspider.py
version：

语法: scrapy version [-v]

输出Scrapy版本。配合 -v 运行时，该命令同时输出Python, Twisted以及平台的信息，方便bug提交。

deploy

将项目部署到Scrapyd服务。查看部署您的项目。

语法: scrapy deploy [ <target:project> | -l <target> | -L ]

bench

运行benchmark测试。 Benchmarking 。

语法: scrapy bench

COMMANDS_MODULE

Scrapy运行流程大概如下：

文件说明：

注意：一般创建爬虫文件时，以网站域名命名

scrapy命令行：

全局命令

项目命令

1、创建爬虫工程的命令

2、控制项目创建一个spider

您可以在您的项目中使用 scrapy 工具来对其进行控制和管理。

比如，创建一个新的spider:

3、使用爬虫进行爬去

4、进行contract检查

5、列出当前项目中所有可用的spider。每行输出一个spider

6、使用 EDITOR 中设定的编辑器编辑给定的spider

7、使用Scrapy下载器(downloader)下载给定的URL，并将获取到的内容送到标准输出。

该命令以spider下载页面的方式获取页面。例如，如果spider有 USER_AGENT 属性修改了 User Agent，该命令将会使用该属性。

因此，您可以使用该命令来查看spider如何获取某个特定页面。

该命令如果非项目中运行则会使用默认Scrapy downloader设定。

8、在浏览器中打开给定的URL

9、shell命令

在spider的开发调试过程总，shell命令可以通过交互的方式进行调试，非常方便。

以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell。查看 Scrapy终端(Scrapy shell) 获取更多信息。

10、parse命令

支持的选项:

11、settings

获取Scrapy的设定

在项目中运行时，该命令将会输出项目的设定值，否则输出Scrapy默认设定。

12、runspider

13、其他命令

14、自定义项目命令

可以通过 COMMANDS_MODULE 来添加您自己的项目命令。您可以以 scrapy/commands 中Scrapy commands为例来了解如何实现您的命令。

Default: '' (empty string)

用于查找添加自定义Scrapy命令的模块。