【发布时间】:2013-01-30 00:15:47
【问题描述】:
我正在尝试从站点中抓取数据。数据结构为多个对象,每个对象都有一组数据。 例如,有姓名、年龄和职业的人。
我的问题是,这些数据在网站中分为两个级别。
比如说,第一页是姓名和年龄列表,并带有指向每个人的个人资料页面的链接。
他们的个人资料页面列表他们的职业。
我已经有一个用 python 写的爬虫,它可以从顶层收集数据并爬取多个分页。
但是,我怎样才能从内页收集数据,同时保持它与适当的链接对象?
目前,我的输出结构为 json
{[name='name',age='age',occupation='occupation'],
[name='name',age='age',occupation='occupation']} etc
解析函数可以跨页面吗?
【问题讨论】:
标签: python json scrapy web-crawler