URL管理器的作用

URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重复循环抓取死循环。

1.4 URL管理器

URL管理器的实现方式

1.4 URL管理器
URL管理器的实现方式有三种:

  1. 适合个人的:内存
    1. 为啥用set()呢?
    2. 因为:python的set可以自动去除重复的元素。
  2. 小型企业或个人:关系数据库(永久存储或内存不够用)
    1. 用一个字段表示URL
    2. 用另一个字段判断是否被爬取过。
  3. 大型互联网公司:缓存数据库(高性能)

相关文章:

  • 2022-12-23
  • 2021-08-03
  • 2021-09-18
  • 2021-05-19
  • 2022-12-23
  • 2022-12-23
  • 2021-05-29
  • 2021-08-05
猜你喜欢
  • 2022-12-23
  • 2021-05-19
  • 2021-12-30
  • 2021-12-12
  • 2021-11-21
  • 2021-06-24
  • 2022-03-01
相关资源
相似解决方案