【发布时间】:2016-05-16 15:43:24
【问题描述】:
我正在尝试从 html 表中抓取数据,Texas Death Row
我可以使用下面的蜘蛛脚本从表中提取现有数据:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from texasdeath.items import DeathItem
class DeathSpider(BaseSpider):
name = "death"
allowed_domains = ["tdcj.state.tx.us"]
start_urls = [
"https://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//table/tbody/tr')
for site in sites:
item = DeathItem()
item['firstName'] = site.select('td[5]/text()').extract()
item['lastName'] = site.select('td[4]/text()').extract()
item['Age'] = site.select('td[7]/text()').extract()
item['Date'] = site.select('td[8]/text()').extract()
item['Race'] = site.select('td[9]/text()').extract()
item['County'] = site.select('td[10]/text()').extract()
yield item
问题是表中还有我试图调用的链接,并从链接中获取要附加到我的项目的数据。
这里的 Scrapy 教程,Scrapy Tutorial 似乎有关于如何从目录中提取数据的指南。但我无法弄清楚如何从主页获取数据以及从表中的链接返回数据。
【问题讨论】:
标签: python scrapy scrapy-spider