新浪微博爬虫项目

利用scrapy、proxy_pool、cookie_pool抓取新浪微博：用户信息、关注列表、粉丝列表、微博内容，信息保存至MongoDB。以几个大V为起点，爬取个人信息、粉丝、关注、微博信息，然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息，以此类推，实现递归爬取。
1、    spider.py：请求网页，反爬：pc端困难，数据是ajax请求，containerid参数，
解决：转移动端（m.weibo.cn/u/uid），请求json数据，参数：230283/100505/107603/231051区别
2、    middlewares：调用proxy_pool，cookie_pool，随机获取代理或cookie
3、    Pipeline：item对象中有’crawlet_at’代表当前爬取时间，使用TimePipeline，赋值当前时间；item对象中有’created_at’代表评论时间（刚刚、几分钟前…），使用WeiboPipeline，进行时间处理；数据库使用MongoPipeline，进行连接，存储
4、    技术：scrapy，MongoDB，proxy_pool，cookie_pool，time
介绍：