Python网络爬虫《二》

1、网络爬虫的尺寸：

Python网络爬虫《二》

2、网络爬虫的限制：

（1）来源审查：判断User-agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问；

（2）发布公告：Robots协议

3、Robots协议：网络爬虫排除标准

作用：网络告知网络爬虫那些页面可以抓取，那些不行；

显示：在网站根目录下robots.txt文件；

Python网络爬虫《二》

网络爬虫：自动或者人工识别robot.txt,再进行内容爬取；

约束性：robots协议建议但非约束性，网络爬虫可以不遵守，但存在法律风险；

相关文章：

2022-02-03
2021-12-05
2021-12-05
2021-11-17
2021-12-15

猜你喜欢

2021-12-20
2021-11-14
2021-08-11
2021-09-16
2021-12-18
2021-07-10

相关资源

下载 2021-06-05
下载 2022-12-21
下载 2022-12-26

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode