简单的PYTHON爬取网页内容

首先我们打开需要爬取的网页(以教育宝信息内容为例)，可以看到我们搜索一个网页中的内容时，它的URL表示的文件夹内容是有所变化的，例如我们从类别中搜索教育类时，我们发现它的URL是https://bj.jiaoyubao.cn/yingyu/ 当跳到第二页的时候URL变为https://bj.jiaoyubao.cn/yingyu/p2.hmtl，因此这个URL的规律为https://bj.jiaoyubao.cn/yingyu/p+N（循环变量）.html我们可以拼接URL

简单的PYTHON爬取网页内容

这样就能使用PYTHON的urllib和BeautifulSoup进行简单的网页信息的爬取，首先通过URLLIB的request方法来模拟浏览器访问网页，再将网页内容提取为一个XML文件，提取为XML文件后，首先通过soup的find_all方法来匹配标签名和CLASS名，以及可以通过字典来匹配标签的特定的属性名，来提取特定的标签，提取出网页中所有的符合条件的标签后，通过正则表达式来提取网页XML文件中的有效内容。