1、网络爬虫的尺寸:

Python网络爬虫《二》

2、网络爬虫的限制:

(1)来源审查:判断User-agent进行限制

  • 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问;

(2)发布公告:Robots协议

3、Robots协议:网络爬虫排除标准

作用:网络告知网络爬虫那些页面可以抓取,那些不行;

显示:在网站根目录下robots.txt文件;

Python网络爬虫《二》

网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;

约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;



相关文章:

  • 2022-02-03
  • 2021-12-05
  • 2021-12-05
  • 2021-11-17
  • 2021-12-15
猜你喜欢
  • 2021-12-20
  • 2021-11-14
  • 2021-08-11
  • 2021-09-16
  • 2021-12-18
  • 2021-07-10
相关资源
相似解决方案