爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。
相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。
接着开始接触传说中给人用的requests ,惊呼『这简直是太棒了』。
在requests的学习中,我们知道了proxy ,知道了user-agent,知道了如何post。
随后,我们开始放下写的头疼的正则表达式(regex ),开始了解xpath , BeautifulSoup ,又是一阵 惊呼。
我们攻克了知乎(曽经),攻克了移动端的微博,却卡在了网页版的微博。于是我们知道了 selenium,用上了PhantomJS ,好嘛,现在浏览器能做的我都能做了。
渐渐地我们不满足于单线程的慢慢虫,于是我们开始写多线程。
渐渐地我们不满足于把数据放在csv文件中,于是我们开始用上mysql , mongodb , redis。
最终我们发现从头开始写4爬虫太不划算了,于是我们又捡起了一^始曽接触但随即放弃了的 scrapy。乖乖,现在我们才发现scrapy的速度那么快,效率那么高。我们不禁有些泄气。

相关文章:

  • 2021-04-20
  • 2022-01-12
  • 2021-07-11
  • 2021-07-26
  • 2021-08-07
  • 2022-02-06
  • 2022-02-09
猜你喜欢
  • 2022-01-03
  • 2021-11-25
  • 2021-08-27
  • 2021-10-02
  • 2021-11-30
  • 2021-12-15
  • 2021-12-07
相关资源
相似解决方案