基本爬虫框架包括五个模块:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。
基本爬虫框架
1. 爬虫调度器负责统筹其他四个模块协调工作。
2. URL管理器负责管理URL链接,包括已爬取的链接和未爬取的链接。
3. HTML下载器用于从URL管理器中获取未爬取的链接并下载其HTML网页。
4. HTML解析器用于解析HTML下载器下载的HTML网页,获取URL链接交给URL管理器,提取要获取的数据交给数据存储器。
5. 数据存储器用于将HTML解析器解析出来的数据存储到数据库或文件。

相关文章:

  • 2021-06-18
  • 2022-12-23
  • 2022-01-18
  • 2021-12-29
  • 2021-04-27
  • 2021-11-20
  • 2021-09-18
猜你喜欢
  • 2022-02-12
  • 2022-12-23
  • 2022-01-05
  • 2021-12-08
  • 2021-12-12
  • 2021-10-29
相关资源
相似解决方案