【发布时间】:2022-09-27 21:33:50
【问题描述】:
假设在我的数据集中,我有 3 个名义/分类变量 - 年(2 个唯一值)、性别(2 个唯一值)、国家(2 个唯一值)和 2 个数值变量 - 年工作经验和薪水。现在想象一下 2010 年美国女性没有数据(有多个这样的组)。我想:
- 按年份、性别、国家/地区分组,并按平均值汇总工作经验和薪水。
- 然后对于缺失的组 - 将可能缺失的组添加为行,并相应地添加say、work exp 和salary 作为零。
我可以通过 pandas groupby 实现第 1 步。在第 2 步中需要帮助。或者是否有更好的整体方法来解决这个问题?
例子: 原始数据
Years Gender Country Salary Work ex 2010 Male USA 50 2 2011 Female India 30 1 2011 Male Ind 10 3 2011 Male USA 50 2 2011 Female USA 80 2 2010 Male USA 50 1 步骤 1 之后:
Years Gender Country Mean Salary Mean Work ex 2010 Male USA 50 1.5 2011 Female India 30 1 2011 Male India 10 3 2011 Male USA 50 2 2011 Female USA 80 2 步骤 2 之后:
Years Gender Country Mean Salary Mean Work ex 2010 Male USA 50 1.5 2010 Male India NA NA 2010 Female USA NA NA 2010 Female India NA NA 2011 Female India 30 1 2011 Male India 10 3 2011 Male USA 50 2 2011 Female USA 80 2
标签: python pandas group-by data-manipulation