【发布时间】:2016-02-12 02:17:38
【问题描述】:
我有一个大的 csv 文件,大约 600mb 有 1100 万行,我想创建统计数据,如数据透视图、直方图、图表等。显然只是想正常读取它:
df = pd.read_csv('Check400_900.csv', sep='\t')
不起作用,所以我在类似的帖子中发现了 iterate 和 chunksize,所以我使用了
df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
一切都好,例如,我可以 print df.get_chunk(5) 搜索整个文件
for chunk in df:
print chunk
我的问题是我不知道如何将下面这些东西用于整个 df 而不仅仅是一个块
plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
我希望我的问题没有那么令人困惑
【问题讨论】:
-
您还没有提出问题。你有什么问题?
-
@saladi 我的问题是如何使用 df 而不必一次将其全部加载到内存中。
-
我认为你提到的问题是这个stackoverflow.com/questions/29334463/…
标签: python pandas csv dataframe