【发布时间】:2021-08-14 05:43:07
【问题描述】:
假设我有以下数据框:
df = pd.DataFrame({"ID":['1','4','2','3','4','3','4'],"Color":['Green','Org','Yellow','B','Orange','Blue','Orange']})
我想要做的是用重复的 ['ID'] 替换记录的 col ['Color'] 中的值。在第一次出现 ['ID'] 时,必须将 ['Color'] 值替换为 ['Color'] 值。 这样上面的数据框就会产生以下结果:
df = pd.DataFrame({"ID":['1','4','2','3','4','3','4'],"Color":['Green','Org','Yellow','B','Org','B','Org']})
如您所见,例如,“Orange”已替换为“Org”,因为这是第一次出现 ['ID']= '4' 时的 ['Color'] 值
原始数据集是 (8M,140),因此我不能删除重复数据,因为我会丢失重要数据。我很难找到一个基本链接duplicated() 和replace() 的逻辑。我已经搜索了互联网,但我能找到的只是用 NaN 或相同值替换重复项的解决方案。如果我错过了解决此问题的帖子,请指导我。
提前感谢您的时间和帮助。
【问题讨论】:
标签: python pandas duplicates