1.开始分析页面,找到所抓取的文字所在标签,如图所示。
python爬取豆瓣电影 Top 250里的内容
2.通过requests.get获取整个页面代码,并通过正则表达式匹配出所需字符。
关于正则表达式 https://www.cnblogs.com/chuxiuhong/p/5885073.html
经过分析匹配出电影名称,导演等的正则为
'<span class="title">(.*?)</span>.*?<p class="">(.*?)</p>'
整体代码如下
python爬取豆瓣电影 Top 250里的内容
打印结果如下
python爬取豆瓣电影 Top 250里的内容
后续应该继续完善,精简信息,将信息存入文件,第一次学正则,好蒙好蒙~

相关文章:

  • 2021-05-07
  • 2021-08-20
  • 2021-11-19
  • 2021-07-15
  • 2021-11-06
  • 2021-06-25
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-10-09
  • 2022-12-23
  • 2022-12-23
  • 2021-10-07
  • 2021-10-13
  • 2021-06-10
相关资源
相似解决方案