【发布时间】:2014-06-28 23:31:26
【问题描述】:
我正在阅读一个包含多个数字和分类数据的 excel 文件。列 name_string 包含外语字符。 当我尝试查看 name_string 列的内容时,我得到了我想要的结果,但是外来字符(在 excel 电子表格中正确显示)以错误的编码显示。 这是我所拥有的:
import pandas as pd
df = pd.read_excel('MC_simulation.xlsx', 'DataSet', encoding='utf-8')
name_string = df.name_string.unique()
name_string.sort()
name_string
产生以下内容:
array([u'4th of July', u'911', u'Abab', u'Abass', u'Abcar', u'Abced',
u'Ceded', u'Cedes', u'Cedfus', u'Ceding', u'Cedtim', u'Cedtol',
u'Cedxer', u'Chevrolet Corvette', u'Chuck Norris',
u'Cristina Fern\xe1ndez de Kirchner'], dtype=object)
在最后一行中,正确编码的名称应该是 Cristina Fernández de Kirchner。有人可以帮我解决这个问题吗?
【问题讨论】:
标签: python excel character-encoding pandas