luyiwei

定义:是一个自动提取网页的程序

1,Url开始---分析获取数据,找到Url-- 递归下去---结果

2,下载html---解析获取数据---保存数据

 

爬虫攻防:robots协议-----君子协定,允许或不允许抓取的内容

1,请求检测header            ------攻击

2,用户登录--请求的时候带上cookie  -----攻击

3,爬虫的频率高,限制IP(黑名单/返回个验证码)---防御

  验证码-----有开源组件做图片识别 / 打码平台

4,多个IP(adsl拨号 / 168伪装IP / 代理IP )  ------攻击

5,大招:

  1)数据js动态加载    ----防御

  2)转成图片    ----防御

  3)js收集用户操作,然后提交  ----防御

  4)安装控件,对硬盘操作,读取  ---防御

 

分类:

技术点:

相关文章: