【发布时间】:2021-05-19 16:55:34
【问题描述】:
正如问题所述。我正在尝试使用 2 个系列/列 df['Offering Family', 'Major Offering'] 删除 df 中的重复行。
我希望将后续的 df 与我基于主要产品列的另一个合并,因此只有产品系列列将被转置到新的 df。我应该注意,我只想删除具有在两列中重复的值的行。如果某个值在产品系列列中出现多次,但主要产品列中的值不同,则不应将其删除。但是,当我运行下面的代码时,我发现我正在丢失这些值。有人可以帮忙吗?
df = pd.read_excel(pipelineEx, sheet_name='Data')
dfMO = df[['Offering Family', 'Major Offering']].copy()
dfMO.filter(['Offering Family', 'Major Offering'])
dfMO = df.drop_duplicates(subset=None, keep="first", inplace=False)
#dfMO.drop_duplicates(keep=False,inplace=True)
print(dfMO)
dfMO.to_excel("Major Offering.xlsx")
【问题讨论】:
-
您能否分享一些示例记录,以便我们知道 drop_duplicates 出了什么问题
-
How to make good reproducible pandas examples - 我们无权访问您的 excel 文件,您的 minimal reproducible example 应包含代表您真实数据的数据。
标签: python python-3.x pandas duplicates data-science