【问题标题】:Groupby() and mean() in pandas dataframe with returning more than two columns熊猫数据框中的 Groupby() 和 mean() 返回多于两列
【发布时间】:2022-01-14 08:02:35
【问题描述】:

一个超级简单的问题,我目前找不到。

这是我的数据框

    id  Name    Lastname    Journal     Article   Score
0   1   John    Doo         Journal2    Article1    23
1   2   John    Doo         Journal1    Article2    12
2   3   Bill    Foo         Journal17   Article3    8

当我使用时

df.groupby('id', as_index=False)['Score'].mean()

它给了我

    id  Score
0   1   17.5
1   2   8.0

预期输出

   id   Name Lastname Score
0   1   Joe  Doe      17.5
1   2   Bill Foo      8.0

【问题讨论】:

  • 你的例子并不完全一致,所以不确定,但.groupby( ).Score.transform('mean') 可能很有趣。

标签: python pandas group-by mean


【解决方案1】:

如果 NameLastname 列中每个 id 的值相同,请将其添加到 groupby

df.groupby(['id','Name','Lastname'], as_index=False)['Score'].mean()

如果可能,每个 id 的不同值是可能的,可以提取每个组的第一个/最后一个值:

df.groupby('id', as_index=False).agg({'Score':'mean', 'Name':'first', 'Lastname':'first'})

df.groupby('id', as_index=False).agg({'Score':'mean', 'Name':'last', 'Lastname':'last'})

【讨论】:

  • 谢谢。如果名称列包含 NaN 怎么办。并在第一个解决方案中给我一个错误。您将如何更新代码?
  • @AnakinSkywalker - 我认为如果NaNs 需要第二个解决方案,因为first 每组返回第一个非NANs 值。
  • 它在我的本地数据框中给了我ValueError: No axis named NAME for object type DataFrame
  • 没关系,第二个解决方案效果很好,谢谢!
  • @AnakinSkywalker - 你能检查一下print (df.columns.tolist()) 吗?
猜你喜欢
  • 1970-01-01
  • 2018-12-29
  • 1970-01-01
  • 2023-01-12
  • 2016-10-09
  • 2013-12-19
  • 2021-04-30
  • 2018-08-01
相关资源
最近更新 更多