去除HTML中的标签内容

采集后的数据都带有'<>'html标签：

<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院

在这里只要将所有带<>去除即可：

dr = re.compile(r'<[^>]+>',re.S)

dd = dr.sub('',Html)

完整的python脚本：

第一个函数：将一个字段中的刮号去除

第二个函数：将html中的所有标签去除

文章转自：http://blog.csdn.net/followingturing/article/details/8138586

相关文章：

2022-12-23
2022-12-23
2022-12-23
2021-08-12
2021-06-27
2021-09-29
2022-01-11

猜你喜欢

2021-07-25
2022-12-23
2022-12-23
2021-07-12
2021-08-15

相关资源

下载 2023-01-22
下载 2023-04-09
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode