运行蜘蛛时如何在日志中写入日志？答案

【问题标题】：How scrapy write in log while running spider?运行蜘蛛时如何在日志中写入日志？
【发布时间】：2015-08-27 00:25:51
【问题描述】：

在运行 scrapy spider 时，我看到日志消息中包含“DEBUG:” 1. DEBUG：爬取（200）（GET http://www.example.com）（引用者：无） 2. DEBUG：从(200http://www.example.com)刮取

我想知道 1.那些“爬取”和“爬取”是什么意思？ 2. 以上两个 ULR 从哪里返回（即在抓取页面时哪个变量/参数保存了这些 URL）

【问题讨论】：

标签： python scrapy scrapyd portia

【解决方案1】：

让我试着根据Scrapy Website上显示的Scrapy Sample Code来解释。我把它保存在一个文件scrapy_example.py。

from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

使用命令scrapy runspider scrapy_example.py 执行此操作，将产生以下输出：

(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)

Crawled 表示：scrapy 已经下载了那个网页。

Scraped 表示：scrapy 已从该网页中提取了一些数据。

URL 在脚本中作为start_urls 参数给出。

您的输出必须是通过运行爬虫生成的。搜索定义该蜘蛛的文件，您应该能够找到定义该 url 的位置。

【讨论】：