熊猫数据框中的 Groupby() 和 mean() 返回多于两列答案

【问题标题】：Groupby() and mean() in pandas dataframe with returning more than two columns熊猫数据框中的 Groupby() 和 mean() 返回多于两列
【发布时间】：2022-01-14 08:02:35
【问题描述】：

一个超级简单的问题，我目前找不到。

这是我的数据框

    id  Name    Lastname    Journal     Article   Score
0   1   John    Doo         Journal2    Article1    23
1   2   John    Doo         Journal1    Article2    12
2   3   Bill    Foo         Journal17   Article3    8

当我使用时

df.groupby('id', as_index=False)['Score'].mean()

它给了我

    id  Score
0   1   17.5
1   2   8.0

预期输出

   id   Name Lastname Score
0   1   Joe  Doe      17.5
1   2   Bill Foo      8.0

【问题讨论】：

你的例子并不完全一致，所以不确定，但.groupby( ).Score.transform('mean') 可能很有趣。

标签： python pandas group-by mean

【解决方案1】：

如果 Name 和 Lastname 列中每个 id 的值相同，请将其添加到 groupby：

df.groupby(['id','Name','Lastname'], as_index=False)['Score'].mean()

如果可能，每个 id 的不同值是可能的，可以提取每个组的第一个/最后一个值：

df.groupby('id', as_index=False).agg({'Score':'mean', 'Name':'first', 'Lastname':'first'})

df.groupby('id', as_index=False).agg({'Score':'mean', 'Name':'last', 'Lastname':'last'})

【讨论】：

谢谢。如果名称列包含 NaN 怎么办。并在第一个解决方案中给我一个错误。您将如何更新代码？
@AnakinSkywalker - 我认为如果NaNs 需要第二个解决方案，因为first 每组返回第一个非NANs 值。
它在我的本地数据框中给了我ValueError: No axis named NAME for object type DataFrame
没关系，第二个解决方案效果很好，谢谢！
@AnakinSkywalker - 你能检查一下print (df.columns.tolist()) 吗？