【发布时间】:2016-01-30 22:11:39
【问题描述】:
我有一个非常简单的设置:pandas 数据框 df 中的市场数据(报价),如下所示:
index period ask bid
00:00:00.126 42125 112.118 112.117
00:00:00.228 42125 112.120 112.117
00:00:00.329 42125 112.121 112.120
00:00:00.380 42125 112.123 112.120
00:00:00.432 42125 112.124 112.121
00:00:00.535 41126 112.124 112.121
00:00:00.586 41126 112.122 112.121
00:00:00.687 41126 112.124 112.121
00:00:01.198 41126 112.124 112.120
00:00:01.737 41126 112.124 112.121
00:00:02.243 41126 112.123 112.121
现在我使用 pandas.groupy 来汇总期间
g=df.groupby('period')
按时间段很容易获得最低和最高价格,例如
import numpy as np
res=g.agg({'ask': [np.amax, np.amin]})
这也相当快。现在,我还想要每个时期的第一个和最后一个价格。这就是麻烦的开始。当然可以:
res=g.agg({'ask': lambda x: x[0]})
它基本上可以工作,但是对于大型数据集来说它非常慢。基本上,Python 函数调用的调用开销非常巨大。
有谁知道类似于 np.amax 的 numpy 函数,它将返回组的第一个或最后一个元素?我找不到一个。 iloc[0] 不能解决问题,因为它是一个对象的方法,因此,我不能将它作为函数传递给 g.agg,因为我在这个阶段没有对象(这就是需要 lambda)。
现在,我并不懒惰,我尝试使用 cython 为自己做这件事。
import numpy as np
cimport numpy as np
cpdef double first(np.ndarray array_series):
return array_series[0]
但是 pandas 不会接受它作为聚合函数,因为它传递的是 pd.core.series-object 而不是 np.ndarray。 (没关系,一个派生自另一个,编译器不承认这一点。)
有谁知道如何编写一个 cython 函数来接受 pandas 系列而无需 python 调用开销?
【问题讨论】:
-
你试过
df.groupby('period').first()和df.groupby('period').last()吗? -
谢谢,这是一个很好的提示。它有效,但我不能将 first() 函数传递给 g.agg(...),可以吗?我希望这样更好,因为我想一次应用许多不同的聚合函数(amin、amax、first、...)。我猜,使用它然后手动组装我的最终数据集将是一种解决方法。
-
可以,请看我的回答
标签: python csv numpy pandas cython