利用scrapy、proxy_pool、cookie_pool抓取新浪微博:用户信息、关注列表、粉丝列表、微博内容,信息保存至MongoDB。以几个大V为起点,爬取个人信息、粉丝、关注、微博信息,然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息,以此类推,实现递归爬取。
1、    spider.py:请求网页,反爬:pc端困难,数据是ajax请求,containerid参数,
解决:转移动端(m.weibo.cn/u/uid),请求json数据,参数:230283/100505/107603/231051区别
2、    middlewares:调用proxy_pool,cookie_pool,随机获取代理或cookie
3、    Pipeline:item对象中有’crawlet_at’代表当前爬取时间,使用TimePipeline,赋值当前时间;item对象中有’created_at’代表评论时间(刚刚、几分钟前…),使用WeiboPipeline,进行时间处理;数据库使用MongoPipeline,进行连接,存储
4、    技术:scrapy,MongoDB,proxy_pool,cookie_pool,time
介绍:

相关文章: