【问题标题】:How scrapy write in log while running spider?运行蜘蛛时如何在日志中写入日志?
【发布时间】:2015-08-27 00:25:51
【问题描述】:

在运行 scrapy spider 时,我看到日志消息中包含“DEBUG:” 1. DEBUG:爬取(200)(GET http://www.example.com)(引用者:无) 2. DEBUG:从(200http://www.example.com)刮取

我想知道 1.那些“爬取”和“爬取”是什么意思? 2. 以上两个 ULR 从哪里返回(即在抓取页面时哪个变量/参数保存了这些 URL)

【问题讨论】:

    标签: python scrapy scrapyd portia


    【解决方案1】:

    让我试着根据Scrapy Website上显示的Scrapy Sample Code来解释。我把它保存在一个文件scrapy_example.py

    from scrapy import Spider, Item, Field
    
    class Post(Item):
        title = Field()
    
    class BlogSpider(Spider):
        name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
    
        def parse(self, response):
            return [Post(title=e.extract()) for e in response.css("h2 a::text")]
    

    使用命令scrapy runspider scrapy_example.py 执行此操作,将产生以下输出:

    (...)
    DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
    DEBUG: Scraped from <200 http://blog.scrapinghub.com>
        {'title': u'Using git to manage vacations in a large distributed\xa0team'}
    DEBUG: Scraped from <200 http://blog.scrapinghub.com>
        {'title': u'Gender Inequality Across Programming\xa0Languages'}
    (...)
    

    Crawled 表示:scrapy 已经下载了那个网页。

    Scraped 表示:scrapy 已从该网页中提取了一些数据。

    URL 在脚本中作为start_urls 参数给出。

    您的输出必须是通过运行爬虫生成的。搜索定义该蜘蛛的文件,您应该能够找到定义该 url 的位置。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-01-15
      • 2022-08-17
      • 2016-08-02
      • 1970-01-01
      • 1970-01-01
      • 2020-08-22
      • 2012-08-01
      相关资源
      最近更新 更多