【发布时间】:2020-12-07 22:45:07
【问题描述】:
鉴于此示例数据集,我试图提醒各家公司他们在我们的数据库中有重复项,以便他们都可以相互通信并确定该人所属的公司:
Name SSN Company
Smith, John 1234 A
Smith, John 1234 B
Jones, Mary 4567 C
Jones, Mary 4567 D
Williams, Joe 1212 A
Williams, Joe 1212 C
理想的输出是提供给每家公司的数据框,提醒他们注意数据中的重复项以及声称分配给他们的同一个人的另一家公司的身份。像这样的:
A 公司数据框
Name SSN Company
Smith, John 1234 A
Smith, John 1234 B
Williams, Joe 1212 A
Williams, Joe 1212 C
C 公司数据帧
Name SSN Company
Jones, Mary 4567 C
Jones, Mary 4567 D
Williams, Joe 1212 A
Williams, Joe 1212 C
因此,尝试了 groupby ['Company'],但是,当然,仅将所有公司结果分组到一个组中,它省略了具有重复人员和 SSN 的另一家公司。某些版本的 groupby (在那个逻辑的深处)似乎应该可以工作,但是按多列分组,不完全是。输出将按公司分组,但包含与该公司组中的所有值关联的重复值。一个谜,因此我的帖子。
可能是 groupby Company,然后在 Name 列上将每个 Company 组与其他组连接起来?
【问题讨论】:
-
为什么没有B公司数据框?
-
@DaniMesejo。哦,只是为了简洁起见。希望结果中每家公司都有一个数据框。
标签: python pandas pandas-groupby