首先我们打开需要爬取的网页(以教育宝信息内容为例),可以看到我们搜索一个网页中的内容时,它的URL表示的文件夹内容是有所变化的,例如我们从类别中搜索教育类时,我们发现它的URL是https://bj.jiaoyubao.cn/yingyu/ 当跳到第二页的时候URL变为https://bj.jiaoyubao.cn/yingyu/p2.hmtl,因此这个URL的规律为https://bj.jiaoyubao.cn/yingyu/p+N(循环变量).html我们可以拼接URL

简单的PYTHON爬取网页内容

      这样就能使用PYTHON的urllib和BeautifulSoup进行简单的网页信息的爬取,首先通过URLLIB的request方法来模拟浏览器访问网页,再将网页内容提取为一个XML文件,提取为XML文件后,首先通过soup的find_all方法来匹配标签名和CLASS名,以及可以通过字典来匹配标签的特定的属性名,来提取特定的标签,提取出网页中所有的符合条件的标签后,通过正则表达式来提取网页XML文件中的有效内容。

相关文章: