前八章是把爬虫的一些基础知识过了一边,但是内容也很有限。这些搞定了,应该自己玩玩应该够了,或者当个实习生也差不多。
前八章的主要思路就是:
- 先认知爬虫这门技术,了解作用流程(任何技术最开始都不需要深扣细节,先从宏观上进行把握)
- 经典的http模拟请求库requests的一些了解
- 爬虫常见的三种解析方式
- web端的自动化测试工具selenium
- app爬虫一个抓包工具fiddler一个app自动化测试工具airtest
关于爬虫的进阶,建议可以把web多花点时间了解一下。以及http协议,了解的再深也不为过。关于爬虫的那就学习一下:
- 多线多进程异步,进行加速
- scrapy框架
- gerapy进行可视化部署
- 高级反爬 验证码,js加密,行为检测
- celery异步定时框架
- apsheduler定时框架
- app逆向
- 爬虫监控
一种爬虫需求有可能能用多种手段进行解决,那么如何做技术筛选呢?
开始爬虫前正确的做法:
- 去各大知识平台论坛提问,csdn(×),作业帮(√)
- 去百度和谷歌搜下这个网站有没有人分享出你要爬数据的API(最好按时间排序,不然大概率网站已经改版,代码不能用)
- 看看电脑网页有没有你要的数据,写点代码测试调查下好不好拿,不管好不好拿,也不要急着就开爬
- 看看有没有电脑能打开的手机网站,一般格式为http://m.xxx.com或
http://mobile.xxxx.com,有的话可以用F12检查抓下包,看下抓取难易程度 - 看看有没有手机App,抓下App的包,看能不能抓到接口,如果新版抓不到,可以尝试旧版本
- 尝试分析app的一些分享外链
- 抓下公众号和小程序的包,看能不能抓到接口
- 都不好弄的话,尝试的话selenium/airtest
- 最高境界:web端**js 移动端逆向**
- 放弃抵抗:js爬虫,人肉爬虫
- 终极大杀器–女装卖萌:老板,不要搞我啦????,不如晚上…
以上调查完成后,再去确定你要选择的爬取方式。