【问题标题】:unicode code points to utf-8 python [duplicate]unicode代码指向utf-8 python [重复]
【发布时间】:2018-05-17 19:32:17
【问题描述】:

我下载了乌尔都语的推文。当我在python中使用pandas读取csv文件时,推文显示如下:

推文示例

Unicode code point 我想把它转换成 utf-8。

【问题讨论】:

  • 使用.encode('utf-8')。但是你为什么要删除它呢?
  • 您可以使用 str('yourtext')'{}'.format('yourtext') 或像 Ganesh 所说的那样,'sometext'.encode('utf-8')
  • 好的,所以在编辑之后,.encode('utf-8') 应该可以解决任何问题
  • 使用 .encode('utf-8') 抛出错误 ------------------------------ --------------------------------------------- UnicodeDecodeError Traceback(最近最后调用) in () ----> 1 print urdutweets.iloc[1]['text'].encode('utf-8') UnicodeDecodeError: 'ascii'编解码器无法解码位置 544 中的字节 0x85:序数不在范围内(128)
  • @Morb {}'.format('yourtext') 无效。它仍在以 unicode 代码的形式打印字符串

标签: python python-2.7 encoding


【解决方案1】:

当您将推文数据写入文件时,请使用 .decode('utf-8') 当您尝试从该文件中读取数据时,请使用 .encode('utf-8')

我在这里发布一个例子:

# -*- coding: utf-8 -*-
string1 = "آکاش کمار"
string2 = string1.decode('utf-8')
string3 = string2.encode('utf-8')
print(string3)

【讨论】:

  • 图片中的推文数据看起来不像你想象的那样。
猜你喜欢
  • 2013-05-11
  • 2018-01-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-05-03
  • 2011-09-11
  • 2015-12-06
相关资源
最近更新 更多