【发布时间】:2019-03-10 22:10:01
【问题描述】:
我有一个不太大的数据框(就形状而言,在2000x10000 范围内)。
我正在尝试groupby 一个列,并平均前 N 个非空条目:
例如
def my_part_of_interest(v,N=42):
valid=v[~np.isnan(v)]
return np.mean(valid.values[0:N])
mydf.groupby('key').agg(my_part_of_interest)
现在需要很长时间(几十分钟),当.agg(np.nanmean)
而是以秒为单位。
如何让它运行得更快?
【问题讨论】:
标签: python pandas performance aggregation