【发布时间】:2013-03-28 02:17:00
【问题描述】:
我正在尝试将 CSV 文件的片段读入 pandas DataFrame,当我将 nrows 设置为超过某个点时,我遇到了麻烦。我的 CSV 文件被分成具有不同标题/数据类型的不同段,所以我浏览了文件并找到了不同段的行号,并保存了行号。当我尝试这样做时:
pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)
它工作正常。任何更多行,它都会引发错误:
CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71
13897 行确实有那么多行,这就是我尝试使用 nrows 和 skiprows 的原因。我可以找到 pandas 将读取的最后一行,它看起来与其他行没有任何不同。在十六进制编辑器中查看文件,我仍然看不出任何区别。
我也用另一个 CSV 文件尝试过,我得到了类似的结果:
pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)
<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187
但是:
pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)
给予:
CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71
我有什么遗漏吗?有没有其他方法可以做到这一点?
我在 Windows 上使用:pandas-0.10.1.win-amd64-py3.3、numpy-MKL-1.7.1rc1.win-amd64-py3.3 和 python-3.3.0.amd64。 numpy-unoptimized-1.7.1rc1.win-amd64-py3.3 遇到同样的问题。
【问题讨论】:
-
这条线有什么可疑之处吗,比如它有 70 个逗号,而前一行有 55...?
-
错误所指的行是一个带有 70 个逗号的行,是的。但是对于skirows和nrows,我试图阻止它到达那条线。例如,当错误涉及第 13897 行时,我试图从第 40 行读取到 12647+40。我试图指定的行是正常的(55 个字段)。
标签: python csv python-3.x pandas