爬虫杂记2（爬虫，数据，网站）

爬虫开发的步骤：分析网站的结构---了解我们的需求---请求的分析

所有的爬虫都是模拟浏览器的请求。

爬虫:数据采集互联网工具获取我们想要的数据加密,http com控件逆向公开数据
- 数据清洗
- 数据挖掘
- 数据分析
- 分析网站结构
- 了解我们的需求

- 请求分析

在处理数据的时候一般用正则，因为正则可以处理所有类型的有规则和无规则的文本数据。正则可以取出所有的数据。

-1. 判断数据是否在当前请求的网页源代码当中（有三种可能性）

爬虫杂记2（爬虫，数据，网站）

-2. 判断数据是否为ajax异步加载（ajax异步请求是js中的，通过一个请求来实现异步请求（也可以说是多个请求））

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

- 3.数据混淆/数据加密（通过JS加密，如你在网页上面看到的是1，但是在源代码中看到的是aa，这个是通过服务器把数据加密，如服务器把一个1加密成aa,然后再发送到浏览器，浏览器只能获取到aa，然后浏览器再通过JS解密，把aa解成1在页面上显示。这个是最复杂的，最难的）

python是通过缩进来写函数体的，并不需要{}这个括号，python的标准的缩进是四个空格，也可以用制表符tab，一个tab就是四个空格，要注意的是要么要用四个空格，要么要用一个tab,不能两个混用，混用的话代码就废了。。。

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

爬虫杂记2（爬虫，数据，网站）

相关文章：

猜你喜欢

相关资源

Gecco网络爬虫 v1.3.0下载 2023-01-20
PySipder爬虫程序 v0.3.10下载 2021-06-06
spiderflow爬虫平台 v0.5.0下载 2021-06-30
Python网络爬虫与数据采集学习笔记2 中文pdf高清版下载 2023-01-12

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode