爬虫进阶 - 爱码网

爬虫写得多了，就感到有些乏。这个乏，指的并不是乏味，而是更广一些的，浑身使不上劲的SIW 乏。从务实的角度看，现有的答案已经回答地非常全面，无可指摘了。
相信大多数人的爬虫入门都和我类似，先从urllib2入手，写一个最简陋的get,面对一大堆源码无所适从。
接着开始接触传说中给人用的requests ,惊呼『这简直是太棒了』。
在requests的学习中，我们知道了proxy ,知道了user-agent,知道了如何post。
随后，我们开始放下写的头疼的正则表达式（regex ),开始了解xpath , BeautifulSoup ,又是一阵惊呼。
我们攻克了知乎（曽经），攻克了移动端的微博，却卡在了网页版的微博。于是我们知道了 selenium,用上了PhantomJS ,好嘛，现在浏览器能做的我都能做了。
渐渐地我们不满足于单线程的慢慢虫，于是我们开始写多线程。
渐渐地我们不满足于把数据放在csv文件中，于是我们开始用上mysql , mongodb , redis。
最终我们发现从头开始写4爬虫太不划算了，于是我们又捡起了一^始曽接触但随即放弃了的 scrapy。乖乖，现在我们才发现scrapy的速度那么快，效率那么高。我们不禁有些泄气。