第九章 爬虫基础总结
前八章是把爬虫的一些基础知识过了一边,但是内容也很有限。这些搞定了,应该自己玩玩应该够了,或者当个实习生也差不多。

前八章的主要思路就是:

  • 先认知爬虫这门技术,了解作用流程(任何技术最开始都不需要深扣细节,先从宏观上进行把握)
  • 经典的http模拟请求库requests的一些了解
  • 爬虫常见的三种解析方式
  • web端的自动化测试工具selenium
  • app爬虫一个抓包工具fiddler一个app自动化测试工具airtest

关于爬虫的进阶,建议可以把web多花点时间了解一下。以及http协议,了解的再深也不为过。关于爬虫的那就学习一下:

  • 多线多进程异步,进行加速
  • scrapy框架
  • gerapy进行可视化部署
  • 高级反爬 验证码,js加密,行为检测
  • celery异步定时框架
  • apsheduler定时框架
  • app逆向
  • 爬虫监控

一种爬虫需求有可能能用多种手段进行解决,那么如何做技术筛选呢?

开始爬虫前正确的做法:

  1. 去各大知识平台论坛提问,csdn(×),作业帮(√)
  2. 去百度和谷歌搜下这个网站有没有人分享出你要爬数据的API(最好按时间排序,不然大概率网站已经改版,代码不能用)
  3. 看看电脑网页有没有你要的数据,写点代码测试调查下好不好拿,不管好不好拿,也不要急着就开爬
  4. 看看有没有电脑能打开的手机网站,一般格式为http://m.xxx.com或
    http://mobile.xxxx.com,有的话可以用F12检查抓下包,看下抓取难易程度
  5. 看看有没有手机App,抓下App的包,看能不能抓到接口,如果新版抓不到,可以尝试旧版本
  6. 尝试分析app的一些分享外链
  7. 抓下公众号和小程序的包,看能不能抓到接口
  8. 都不好弄的话,尝试的话selenium/airtest
  9. 最高境界:web端**js 移动端逆向**
  10. 放弃抵抗:js爬虫,人肉爬虫
  11. 终极大杀器–女装卖萌:老板,不要搞我啦????,不如晚上…

以上调查完成后,再去确定你要选择的爬取方式。

相关文章:

  • 2022-01-25
  • 2021-07-12
  • 2021-12-22
  • 2021-08-21
  • 2022-01-11
  • 2021-05-29
  • 2021-12-01
猜你喜欢
  • 2022-12-23
  • 2021-10-05
  • 2021-09-18
  • 2021-07-06
  • 2021-11-27
  • 2022-12-23
  • 2021-04-07
相关资源
相似解决方案