工作需要爬取淘宝对应的卖家账户,为了简单就直接用正则匹配所需掌柜名称。  ps:项目较老,用的python2.7

遇到三个问题:

1.中文乱码,开始直接就 Response.encoding = 'utf-8',结果中文都是乱码。查资料可以用  Response.apparent_encoding 看出返回网页的编码格式 GB2312

2.繁体字乱码 简单中文没问题,但是繁体字又是乱码,而且Response.apparent_encoding=‘GB2312’,再查资料,直接在浏览器看网页源码,找到 <meta charset="gbk">,改成gbk问题解决

3.汉字无法正则匹配,因Response.text是unicode格式,需转成python支持的utf-8

 

爬虫中文乱码繁体字乱码问题解决

 

相关文章:

  • 2021-12-03
  • 2018-07-26
  • 2019-12-13
  • 2020-04-21
  • 2018-08-10
  • 2018-01-29
  • 2020-09-28
猜你喜欢
  • 2018-09-23
  • 2019-08-22
  • 2017-12-15
  • 2020-02-21
  • 2018-12-28
  • 2021-11-06
  • 2018-01-25
  • 2019-12-31
相关资源
相似解决方案