反爬机制:
robots.txt协议
UA检测、referer检测
数据加密
图片懒加载
ip检测
验证码识别
字体反爬虫
可以使用Python的urllib模块查看robots.txt
from urllib import robotparser rp = robotparser.RobotFileParser() rp.set_url('https://www.cnblogs.com/robots.txt') url = 'https://www.cnblogs.com/' print(rp.can_fetch('Python', url))