【问题标题】:pandas rolling max with groupby熊猫与 groupby 滚动最大
【发布时间】:2017-10-05 10:43:07
【问题描述】:

我无法让 Pandas 的 rolling 函数完成我想做的事情。我想为每个 frow 计算迄今为止该组内的最大值。这是一个例子:

df = pd.DataFrame([[1,3], [1,6], [1,3], [2,2], [2,1]], columns=['id', 'value'])

看起来像

   id  value
0   1      3
1   1      6
2   1      3
3   2      2
4   2      1

现在我希望获得以下DataFrame:

   id  value
0   1      3
1   1      6
2   1      6
3   2      2
4   2      2

问题是当我这样做时

df.groupby('id')['value'].rolling(1).max()

我得到了相同的 DataFrame。当我这样做时

df.groupby('id')['value'].rolling(3).max()

我得到一个带有 Nans 的 DataFrame。有人可以解释如何正确使用rolling 或其他一些 Pandas 函数来获取我想要的 DataFrame 吗?

【问题讨论】:

  • 如果你想要在精神上与rolling 相似的东西,你可以像这样使用expandingdf.groupby('id').expanding().max()。但是,做一些快速测试这比其他两个答案慢。只是 FWIW,尽管它可能很有用,因为 expanding 确实为您提供了超过 cummax 的其他选项,如果您需要它们(例如窗口大小等)

标签: python python-3.x pandas dataframe group-by


【解决方案1】:

您似乎需要cummax() 而不是.rolling(N).max()

In [29]: df['new'] = df.groupby('id').value.cummax()

In [30]: df
Out[30]:
   id  value  new
0   1      3    3
1   1      6    6
2   1      3    6
3   2      2    2
4   2      1    2

时机(使用全新的 Pandas 版本 0.20.1):

In [3]: df = pd.concat([df] * 10**4, ignore_index=True)

In [4]: df.shape
Out[4]: (50000, 2)

In [5]: %timeit df.groupby('id').value.apply(lambda x: x.cummax())
100 loops, best of 3: 15.8 ms per loop

In [6]: %timeit df.groupby('id').value.cummax()
100 loops, best of 3: 4.09 ms per loop

注意: from Pandas 0.20.0 what's new

【讨论】:

    【解决方案2】:

    使用 apply 会快一点:

    # Using apply  
    df['output'] = df.groupby('id').value.apply(lambda x: x.cummax())
    %timeit df['output'] = df.groupby('id').value.apply(lambda x: x.cummax())
    1000 loops, best of 3: 1.57 ms per loop
    

    其他方法:

    df['output'] = df.groupby('id').value.cummax()
    %timeit df['output'] = df.groupby('id').value.cummax()
    1000 loops, best of 3: 1.66 ms per loop
    

    【讨论】:

    • 是时候升级到 Pandas 0.20.1 ;)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-08-27
    • 2019-07-27
    • 1970-01-01
    • 2021-07-16
    • 2019-02-28
    • 2019-10-06
    • 2022-07-05
    相关资源
    最近更新 更多