【发布时间】:2021-07-15 05:09:01
【问题描述】:
我有一个如下所示的 pandas df:
当前df:
| Case | Task | Text_Present |
|---|---|---|
| 123 | Yes | |
| 123 | Outreach | No |
| 456 | Session | No |
| 456 | No |
我想删除重复的案例,但基于 Text_Present 字段的条件。
如果出现“是”,请保留出现“是”的记录。如果不存在“是”(例如:案例 456),则保留 456 的记录之一 - 不管是哪一个。
我基本上是想了解 % Yes 到 % No,但由于“描述”字段导致案例重复,因此数学计算不正确 - 因为我想计算任何有任何任务中的“是”都只是该案例的“是”。
我的目标输出是:
| Case | Task | Text_Present |
|---|---|---|
| 123 | Yes | |
| 456 | Session | No |
最终,我想在一个简单的条形图中比较 % Yes 和 % No,但重复导致百分比不准确。
据我所知,df.drop 只提供第一个和最后一个。
谢谢大家!
【问题讨论】:
标签: python pandas dataframe duplicates drop