Python处理HTML转义字符

在抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人。

  比方说一个从网页中抓到的字符串

  p ='<abc>'

  用Python可以这样处理:

  

import html
p = '<abc>'
txt= html.unescape(p)
print (txt)

 

  #这样就得到了txt= '<abc>'

  如果还想转回去,可以这样:
  

import cgi
q = cgi.escape(html)
print(q)

  

       #这样又回到了 html = '&lt;abc&gt'

相关文章:

  • 2021-09-13
  • 2021-08-17
  • 2021-12-18
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-05-31
  • 2021-08-26
猜你喜欢
  • 2021-06-06
  • 2022-12-23
  • 2022-02-02
  • 2021-11-19
  • 2022-12-23
  • 2021-10-02
  • 2022-12-23
相关资源
相似解决方案