【问题标题】:Dataframes python removing duplicates数据框python删除重复项
【发布时间】:2019-05-12 03:35:54
【问题描述】:

我有一个看起来像这样的数据框

  TaskID Status         Time         
0    123   Progress     12.00
1    234   Progress     12.10
2    123   Almost Done  12.20
3    234   Completed    12.40

我需要用最新的记录更新记录的状态,而不改变其他列的值,并删除最新的重复记录。

最终结果

   TaskID Status         Time         
0    123   Almost Done  12.00
1    234   Completed    12.10

我怎样才能做到这一点?谢谢。

【问题讨论】:

    标签: python dataframe


    【解决方案1】:

    我相信您需要通过 aggfirst 聚合和 last:

    df = df.groupby('TaskID', as_index=False).agg({'Status':'last','Time':'first'})
    print (df)
       TaskID       Status  Time
    0     123  Almost Done  12.0
    1     234    Completed  12.1
    

    【讨论】:

      猜你喜欢
      • 2016-10-01
      • 1970-01-01
      • 1970-01-01
      • 2020-12-23
      • 2018-12-13
      • 2021-05-14
      • 1970-01-01
      • 2020-05-08
      • 2019-09-09
      相关资源
      最近更新 更多