一个网站的网页经常会更新,在网页更新之后,作为爬虫方,我们则需要对这些网页进行重新爬取,有以下几种策略进行重新爬取

(1) 用户体验策略:我们从浏览器搜索一个关键字,会出现一个排名结果,我们可以根据排名靠前的网页更新爬虫程序,对其进行爬取,这种更新策略称为用户体验策略
(2) 历史数据策略:一般我们不知道网站什么时候更新,但我们可以通过爬取的历史数据,分析出网站的更新周期,确定对这些网页的爬取周期,以此更新爬虫程序
(3) 聚类分析策略:聚类指的是共性较多的网页聚为一类,比如新闻类网站,购物类网站等等,确定爬虫程序要爬取哪一类数据

 

 

 

 

 

    

相关文章:

  • 2022-01-03
  • 2021-11-19
  • 2022-01-09
  • 2021-11-14
  • 2022-01-03
  • 2021-07-25
  • 2021-12-05
猜你喜欢
  • 2022-12-23
  • 2021-08-14
  • 2022-01-03
  • 2022-12-23
  • 2021-07-14
  • 2021-09-13
  • 2021-07-01
相关资源
相似解决方案