【问题标题】:Max and Min date in pandas groupbypandas groupby中的最大和最小日期
【发布时间】:2014-09-21 09:14:33
【问题描述】:

我有一个如下所示的数据框:

data = {'index': ['2014-06-22 10:46:00', '2014-06-24 19:52:00', '2014-06-25 17:02:00', '2014-06-25 17:55:00', '2014-07-02 11:36:00', '2014-07-06 12:40:00', '2014-07-05 12:46:00', '2014-07-27 15:12:00'],
    'type': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'C'],
    'sum_col': [1, 2, 3, 1, 1, 3, 2, 1]}
df = pd.DataFrame(data, columns=['index', 'type', 'sum_col'])
df['index'] = pd.to_datetime(df['index'])
df = df.set_index('index')
df['weekofyear'] = df.index.weekofyear
df['date'] = df.index.date
df['date'] = pd.to_datetime(df['date'])



                     type sum_col weekofyear   date
index               
2014-06-22 10:46:00    A    1       25      2014-06-22
2014-06-24 19:52:00    B    2       26      2014-06-24
2014-06-25 17:02:00    C    3       26      2014-06-25
2014-06-25 17:55:00    A    1       26      2014-06-25
2014-07-02 11:36:00    B    1       27      2014-07-02
2014-07-06 12:40:00    C    3       27      2014-07-06
2014-07-05 12:46:00    A    2       27      2014-07-05
2014-07-27 15:12:00    C    1       30      2014-07-27

我希望按年分组,然后总结 sum_col。另外,我需要找到一周中最早和最晚的日期。第一部分很简单:

gb = df.groupby(['type', 'weekofyear'])
gb['sum_col'].agg({'sum_col' : np.sum})

我试图用这个找到最小/最大日期,但没有成功:

gb = df.groupby(['type', 'weekofyear'])
gb.agg({'sum_col' : np.sum,
        'date' : np.min,
        'date' : np.max})

如何找到出现的最早/最晚日期?

【问题讨论】:

    标签: python pandas dataframe


    【解决方案1】:

    您需要组合适用于同一列的函数,如下所示:

    In [116]: gb.agg({'sum_col' : np.sum,
         ...:         'date' : [np.min, np.max]})
    Out[116]: 
                          date             sum_col
                          amin       amax      sum
    type weekofyear                               
    A    25         2014-06-22 2014-06-22        1
         26         2014-06-25 2014-06-25        1
         27         2014-07-05 2014-07-05        2
    B    26         2014-06-24 2014-06-24        2
         27         2014-07-02 2014-07-02        1
    C    26         2014-06-25 2014-06-25        3
         27         2014-07-06 2014-07-06        3
         30         2014-07-27 2014-07-27        1
    

    【讨论】:

    • 要命名列,请提供字典,例如gb.agg({'date': {'mindate': np.min, 'maxdate': np.max}})
    • pandas 是否支持上述方法?
    • @connorbode:pandas v1.0.5 pandas.core.base.SpecificationError: nested renamer is not supported 似乎不支持嵌套列命名
    • nested renamer is not supported 在新版本的熊猫中。请改用gb.date.agg(mindate=np.min, maxdate=np.max)
    【解决方案2】:

    简单代码即可

    df.groupby([key_field]).agg({'time_field': [np.min,np.max]})
    

    这里的key_field可以是event_id,time_field可以是timestamp字段。

    【讨论】:

    • 我在一个系列中使用了这个:df2 = df.groupby(['Month_Begin']).agg({'MyDateColumn': [np.min, np.max]})
    • 您也可以通过添加“df.groupby(['Month_Begin', 'Column2', 'Column3'],as_index=False).agg...”来保留标题。跨度>
    猜你喜欢
    • 2021-12-15
    • 1970-01-01
    • 2012-07-16
    • 2019-05-31
    • 1970-01-01
    • 2020-06-20
    • 2012-05-16
    • 2020-02-02
    • 2018-06-08
    相关资源
    最近更新 更多