我们根据上一篇入门里的爬虫步骤来。
首先先明确我们需要的资源,这次用龙阅读做示例,网址为;
然后我们分析数据加载流程,先获取目标网页的HTML接下来就会爬取目标网页的html,爬出来这样的东西就可以了
我们获取一下小说的名字(这里需要正则表达式,所以需导入re包)
出现了小说的名字就没有问题了
想要下载小说我们就需要一个文件来存放它,我们来建立一个文件
这样写就很OK
接下来重点就要来了,我们要获取每个章节的内容了
我们先来分析一下网页的HTML,找到章节目录的那段代码很显然,从
- 到
这个带有自动下载的爬虫就完成了
完整代码也分享给大家