python 下载整个站点

用python实现的下载整个站点工具。

核心流程非常easy：

1. 输入站点地址

2. url。得到响应的内容。

3. 依据响应的http报文头，假设类型为html, 则从第4步開始运行。

假设是其他类型，则从第6步运行。

4. 提取html中href和src属性值。

5. 将提取到的url，增加下载队列中。假设url已经存在于下载队列中，则丢弃它。

6. 再然后打开url队列中下一个url。

7.继续循环运行第2步，知道url队列中的url处理完为止。

这个步骤看起来非常easy。可是里面非常多细节要处理半天。

url的各种类型。怎么给后缀有问号的url命名。

眼下这个程序中有一处问题是：

1 打开url时，可能会堵塞到一处运行不下去。这个须要研究一下urllib.request

2 还有在url队列长度庞大时，多线程下载速度回更快。

3 英文凝视不知道有多少错误。由于写凝视时。要是用中文，须要不停来回切换输入法，所以就使用英文。

而眼下的程序部支持多线程，日后再完好。

假设有同学有兴趣完好，很欢迎。

源码下载：http://download.csdn.net/detail/jiangxiaoma111/8002631

个人邮箱：369806726@qq.com

相关文章：

2022-12-23
2021-12-06
2021-09-20
2021-07-03
2022-03-06
2021-05-26
2021-06-07
2021-12-23

猜你喜欢

2021-11-12
2021-07-30
2022-02-05
2022-12-23
2021-12-18
2022-12-23

相关资源

下载 2023-01-06
下载 2021-06-22
下载 2021-07-09
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode