使用 pandas read_csv 和 nrows 读取 ~13000 行 CSV 文件的部分内容答案

【问题标题】：Reading parts of ~13000 row CSV file with pandas read_csv and nrows使用 pandas read_csv 和 nrows 读取 ~13000 行 CSV 文件的部分内容
【发布时间】：2013-03-28 02:17:00
【问题描述】：

我正在尝试将 CSV 文件的片段读入 pandas DataFrame，当我将 nrows 设置为超过某个点时，我遇到了麻烦。我的 CSV 文件被分成具有不同标题/数据类型的不同段，所以我浏览了文件并找到了不同段的行号，并保存了行号。当我尝试这样做时：

pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)

它工作正常。任何更多行，它都会引发错误：

CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71

13897 行确实有那么多行，这就是我尝试使用 nrows 和 skiprows 的原因。我可以找到 pandas 将读取的最后一行，它看起来与其他行没有任何不同。在十六进制编辑器中查看文件，我仍然看不出任何区别。

我也用另一个 CSV 文件尝试过，我得到了类似的结果：

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187

但是：

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)

给予：

CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71

我有什么遗漏吗？有没有其他方法可以做到这一点？

我在 Windows 上使用：pandas-0.10.1.win-amd64-py3.3、numpy-MKL-1.7.1rc1.win-amd64-py3.3 和 python-3.3.0.amd64。 numpy-unoptimized-1.7.1rc1.win-amd64-py3.3 遇到同样的问题。

【问题讨论】：

这条线有什么可疑之处吗，比如它有 70 个逗号，而前一行有 55...？
错误所指的行是一个带有 70 个逗号的行，是的。但是对于skirows和nrows，我试图阻止它到达那条线。例如，当错误涉及第 13897 行时，我试图从第 40 行读取到 12647+40。我试图指定的行是正常的（55 个字段）。

标签： python csv python-3.x pandas

【解决方案1】：

您可以使用warn_bad_lines 和error_bad_lines 关闭坏行错误和警告：

import pandas as pd
from StringIO import StringIO
data = StringIO("""a,b,c
1,2,3
4,5,6
6,7,8,9
1,2,5
3,4,5""")
pd.read_csv(data, warn_bad_lines=False, error_bad_lines=False)

【讨论】：

这似乎有效，但我仍然想知道为什么它首先抛出错误。同时，我使用 StringIO 缓冲区编写了一个解决方案，但就像我说的那样，我想知道为什么它会给我一个错误，因为它没有被告知要读取的行。 pd.read_csv 从 StringIO 中读取（相同的）数据（没有 bad_lines 标志），由我试图告诉它使用 nrows 和 skiprows 读取的文件的行组成。