正则表达式在爬虫中的应用,可以更好的取自己想要的数据,有些时候也可以应对那些反爬取的网站。 

后边多一个?表示懒惰模式。
必须跟在*或者+后边用
如:<img src="test.jpg" width="60px" height="80px"/>
如果用正则匹配src中内容非懒惰模式匹配
src=".*"
匹配结果是:src="test.jpg" width="60px" height="80px"
意思是从="往后匹配,直到最后一个"匹配结束
 
懒惰模式正则:
src=".*?"
结果:src="test.jpg"
因为匹配到第一个"就结束了一次匹配。不会继续向后匹配。因为他懒惰嘛。
 
.表示除\n之外的任意字符
*表示匹配0-无穷
+表示匹配1-无穷

原文地址:https://blog.csdn.net/qq_37503890/article/details/94610002

 

相关文章:

  • 2021-12-18
  • 2022-12-23
  • 2021-10-19
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-03
猜你喜欢
  • 2022-12-23
  • 2022-02-10
  • 2022-12-23
  • 2022-12-23
  • 2021-06-07
相关资源
相似解决方案