【发布时间】:2019-06-06 20:54:39
【问题描述】:
我一直在使用 Pandas 中的数据框,其中包含重复条目以及列中的非重复条目。数据框看起来像这样:
country_name values category
0 country_1 10 a
1 country_2 20 b
2 country_1 50 a
3 country_2 10 b
4 country_3 100 c
5 country_4 10 d
我想写一些东西,用我的数据框中的平均值转换(替换)重复项。理想的输出类似于以下内容:
country_name values category
0 country_1 30 a
1 country_2 15 b
2 country_3 100 c
3 country_4 10 d
我已经为此苦苦挣扎了一段时间,因此我将不胜感激。我忘记添加类别列。 groupby() 方法的问题就像您现在调用 mean() 时一样,它不会返回 category 列。我的解决方案是采用数字列,并将具有重复项的列一起应用groupby().mean(),然后连接回分类列。所以我正在寻找比我所做的更短的解决方案。
当您处理许多分类列时,我的方法会变得乏味。
【问题讨论】:
标签: pandas duplicates aggregate