第九章爬虫基础总结

第九章爬虫基础总结
前八章是把爬虫的一些基础知识过了一边，但是内容也很有限。这些搞定了，应该自己玩玩应该够了，或者当个实习生也差不多。

前八章的主要思路就是：

关于爬虫的进阶，建议可以把web多花点时间了解一下。以及http协议，了解的再深也不为过。关于爬虫的那就学习一下：

一种爬虫需求有可能能用多种手段进行解决，那么如何做技术筛选呢？

开始爬虫前正确的做法：

去各大知识平台论坛提问，csdn（×），作业帮（√）
去百度和谷歌搜下这个网站有没有人分享出你要爬数据的API（最好按时间排序，不然大概率网站已经改版，代码不能用）
看看电脑网页有没有你要的数据，写点代码测试调查下好不好拿，不管好不好拿，也不要急着就开爬
看看有没有电脑能打开的手机网站，一般格式为http://m.xxx.com或
http://mobile.xxxx.com，有的话可以用F12检查抓下包，看下抓取难易程度
看看有没有手机App，抓下App的包，看能不能抓到接口，如果新版抓不到，可以尝试旧版本
尝试分析app的一些分享外链
抓下公众号和小程序的包，看能不能抓到接口
都不好弄的话，尝试的话selenium/airtest
最高境界：web端**js 移动端逆向**
放弃抵抗：js爬虫，人肉爬虫
终极大杀器–女装卖萌：老板，不要搞我啦????，不如晚上…

以上调查完成后，再去确定你要选择的爬取方式。