让我试着根据Scrapy Website上显示的Scrapy Sample Code来解释。我把它保存在一个文件scrapy_example.py。
from scrapy import Spider, Item, Field
class Post(Item):
title = Field()
class BlogSpider(Spider):
name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
def parse(self, response):
return [Post(title=e.extract()) for e in response.css("h2 a::text")]
使用命令scrapy runspider scrapy_example.py 执行此操作,将产生以下输出:
(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
{'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)
Crawled 表示:scrapy 已经下载了那个网页。
Scraped 表示:scrapy 已从该网页中提取了一些数据。
URL 在脚本中作为start_urls 参数给出。
您的输出必须是通过运行爬虫生成的。搜索定义该蜘蛛的文件,您应该能够找到定义该 url 的位置。