【发布时间】:2015-01-03 03:00:15
【问题描述】:
现在我可以看到scrapy同时下载所有页面,但我需要链接people和extract_person方法,这样当我在方法people中获取人员url列表时,我会关注所有这些并且刮掉我需要的所有信息,然后才继续使用另一个页面的人员网址。我该怎么做?
def people(self, response):
sel = Selector(response)
urls = sel.xpath(XPATHS.URLS).extract()
for url in urls:
yield Request(
url=BASE_URL+url,
callback=self.extract_person,
)
def extract_person(self, response):
sel = Selector(response)
name = sel.xpath(XPATHS.NAME).extract()[0]
person = PersonItem(name=name)
yield student
【问题讨论】:
标签: python web-scraping scrapy