【发布时间】:2018-06-21 14:11:50
【问题描述】:
# calculate CTR
count_all = 0
count_4 = 0
for df in pd.read_csv( open("%s/tianchi_fresh_comp_train_user.csv" %
root_path,'r'), chunksize=10000):
try:
count_user = df['behavior_type'].value_counts()
count_all += count_user[1]+count_user[2]+count_user[3]+count_user[4]
count_4 += count_user[4]
except StopIteration:
print("Iteration is stopped.")
# CTR
print(count_all)
print(count_4)
错误信息
但如果我将 chunksize 从 10000 修改为 100000。
chunksize = 100000,
没关系,没问题
为什么,我设置chunksize = 10000,有错误?
【问题讨论】:
-
这里的事情是当你做1000块时,一些块文件不会包含behavior_type 4
-
是的,你是对的。但是如何解决这个问题呢?我应该检查每个块是否有 1、2、3 或 4??
标签: pandas