【发布时间】:2019-12-04 05:43:33
【问题描述】:
我有一个带有“描述”键的 JSON 文件,里面有很多 HTML 标记。我想抹去它们。它们被编码,例如:
&lt;ul&gt; 而不是 <ul>
我尝试过text.replace('<.*?>',''),但它不起作用。
我也尝试过使用 BeautifulSoup 做:
text = soup.get_text()
但它也不起作用(它只是解码 html 标签) 最后,我尝试过这样做:
soup = BeautifulSoup(text)
text = soup.get_text()
text = text.replace('<.*?>','')
结合这两个代码,但标签不会被删除...
我现在在“文本”变量中拥有的内容(在使用解码 html 标签的漂亮汤之后):"description":"</li></ul><p> </p><p><strong>TESTING AND QUALITY</strong></p><ul><li>....."
我想在文本变量中有什么:"description":"TESTING AND QUALITY"
【问题讨论】:
-
您的代码不起作用,因为
text.replace()无法识别正则表达式。它正在寻找文字文本<.*?>,当然不存在。 -
这可能就是你要找的 - stackoverflow.com/questions/9662346/…
标签: python html string parsing replace