【问题标题】:Encoding discrepancy with Iris Dataset与 Iris 数据集的编码差异
【发布时间】:2018-09-01 03:24:57
【问题描述】:

将数据集下载为 iris.data 后,我将其重命名为 iris.data.txt。我试图在 SO 上规避这个报告的错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

阅读后,我尝试了这个:

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

这部分解决了错误,但有些行仍然是垃圾。

然后我尝试用Sublime打开,用utf-8编码保存,然后dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

但这也不能解决问题。我在 Mac OS 上运行 Python 3。什么可能使数据直接可读?

[编辑]: 数据类型为:Web 存档。在 Spyder 中,该文件显示为 iris.data.webarchive

如果我尝试dataset = pd.read_csv('iris.data.webarchive', header=None),它会给出这个回溯:

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

如果我尝试dataset = pd.read_csv('iris.data', header=None),它会得到FileNotFoundError: File b'iris.data' does not exist

【问题讨论】:

  • 奇怪的简单 pd.read_csv('iris.data', header=None) 对我有用...
  • 数据是如何分离的?尝试将sep 参数赋予read_csv
  • @SarthakNegi:请参阅上面的编辑。
  • @SreeramTP:这是一个流行的数据集。我不确定我们是否需要这里的 sep

标签: python encoding iris-dataset


【解决方案1】:

我发现了我的菜鸟错误。我不得不将页面保存为“源”而不是“webarchive”(这是默认的 Mac 设置)

【讨论】:

    猜你喜欢
    • 2018-07-24
    • 2017-02-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-07-29
    • 2015-10-17
    • 2021-10-30
    相关资源
    最近更新 更多