采集后的数据都带有'<>'html标签:

<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院
 
在这里只要将所有带<>去除即可:
 
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)
 
完整的python脚本:
第一个函数:将一个字段中的刮号去除
第二个函数:将html中的所有标签去除
 

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-08-12
  • 2021-06-27
  • 2021-09-29
  • 2022-01-11
猜你喜欢
  • 2021-07-25
  • 2022-12-23
  • 2022-12-23
  • 2021-07-12
  • 2021-08-15
相关资源
相似解决方案