【发布时间】:2020-05-02 12:32:01
【问题描述】:
我有一个大型 csv 文件(13 GB),我希望将其读入 Python 中的数据框。所以我使用:
txt = pd.read_csv(r'...file.csv', sep=';', encoding="UTF-8", iterator = True, chunksize=1000)
它工作得很好,但数据包含在 pandas.io.parsers.TextFileReader 类型中,我想将它放入数据框中,以便操作数据。 p>
我设法获取数据样本,作为数据框使用:
txt.get_chunk(300)
但我希望将所有数据都放在一个数据框中。所以,我尝试了:
for df1 in txt:
df.append(df1)
我也试过了:
df2 = pd.concat([chunk for chunk in txt])
也没有用。 有人可以帮帮我吗?
提前致谢!
【问题讨论】:
-
你想要一个完整的 13 GB 文件到单个变量数据帧吗?
-
只要去掉
chunksize参数,那么txt将是一个DataFrame。chunksize参数适用于无法将所有内容都放入内存而需要单独处理更易于管理的部分的情况。
标签: pandas csv parsing stringio