1. 爬虫的分类

根据被爬网站的数量的不同,我们把爬虫分为:

  • 通用爬虫 :通常指搜索引擎的爬虫

  • 聚焦爬虫 :针对特定网站的爬虫

2.爬虫的流程

请思考:如果自己要实现一个和百度新闻一样的网站需要怎么做?

2.1 聚焦爬虫的工作流程如下:

爬虫的分类和爬虫的流程

2.2 搜索引擎的工作流程如下:

但是搜索引擎类似的通用爬虫的工作流程有些不同
爬虫的分类和爬虫的流程

2.3 搜索引擎的局限性

  • 通用搜索引擎所返回的网页里90%的内容无用。
  • 图片、音频、视频多媒体的内容通用搜索引擎无能为力
  • 不同用户搜索的目的不全相同,但是返回内容相同

3. robots协议

Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是道德层面上的约束

例如 : 淘宝的robots协议

相关文章:

  • 2021-06-22
  • 2021-06-27
  • 2022-02-09
  • 2021-11-01
  • 2021-04-02
  • 2021-10-01
  • 2021-09-03
猜你喜欢
  • 2022-01-03
  • 2022-12-23
  • 2021-08-11
  • 2021-12-03
  • 2021-12-17
相关资源
相似解决方案