Pandas：基于每个组中最大值的 GroupBy 和 Order Groups答案

【问题标题】：Pandas: GroupBy and Order Groups based on max value in each groupPandas：基于每个组中最大值的 GroupBy 和 Order Groups
【发布时间】：2019-03-14 08:08:20
【问题描述】：

我有一个 Pandas DataFrame，其中包含曲目、分数和其他一些列。

我想按“曲目”分组，然后根据“分数”上的最大值对这些组进行排序。

示例数据帧：

tracks       score
20            2.2
20            1.5
25            3.5
24            1.2
24            5.5

预期输出（我想比较每个组的最高值并将所有组从最高到最低排序，尽管我不想丢失任何其他数据 - 意味着我想显示所有行）：

tracks       score
24            5.5
              1.2
25            3.5
20            2.2
              1.5

目前，我得到以下输出（我的分数已排序，但在我的曲目分组后根据曲目编号排序）：

    tracks       score
20            2.2
              1.5
24            5.5
              4.2
25            3.5

到目前为止我的方法： 1.我已经按照分数对所有的值进行了排序

sub_df = sub_df.sort_values("score")

然后我正在执行以下操作以获取输出（我需要字典格式）：

url_dict = sub_df.groupby('track')['url'].apply(list).to_dict()

我也尝试使用 OrderedDict，但它没有用（至少现在），因为 groupBy 命令发送了错误的数据序列。

熊猫 = 0.23，Python = 3.6.4

【问题讨论】：

标签： python pandas

【解决方案1】：

按GroupBy.transform创建辅助列，按DataFrame.sort_values按多列排序，最后删除辅助列：

sub_df['max'] = sub_df.groupby('tracks')['score'].transform('max')

sub_df = sub_df.sort_values(["max","score"], ascending=False).drop('max', axis=1)
#if necessary sorting also by tracks column
#sub_df = sub_df.sort_values(["max","tracks","score"], ascending=False).drop('max', axis=1)
print (sub_df)
   tracks  score
4      24    5.5
3      24    1.2
2      25    3.5
0      20    2.2
1      20    1.5

【讨论】：

【解决方案2】：

可能有点长，但这是我使用的：

先设置索引：

df.set_index(['x', 'y'], inplace=True)

然后在基于索引的双重排序数据帧上使用 groupby

new_df = df.groupby(level=[0,1]).sum().reset_index() \
          .sort_values(['x', 'y'], ascending=[1,0]).groupby('x').head(1)

这将只显示最大值，如果您想查看全部，请删除“head(1)”。

【讨论】：