【问题标题】:Pandas script not removing duplicates熊猫脚本不删除重复项
【发布时间】:2017-03-03 00:27:59
【问题描述】:

我是 Pandas 的新手,正在尝试删除一些不必要的列,然后删除重复的记录。脚本的第一部分在删除列时起作用。但是,脚本没有执行任务的第二部分,因为还有很多重复项。任何帮助将不胜感激。

import pandas as pd
f =pd.read_csv("filename.csv")
    keep_col =['ZIP5','STATE CODE','STATE','COUNTY CODE','COUNTY NAME','CBSA CODE','CBSA TITLE','CBSA LSAD','METRO DIVISION CODE','METRO DIVISION TITLE','METRO DIVISION LSAD','CSA CODE','CSA TITLE','CSA LSAD']
    new_f = f[keep_col]
    new_f.drop_duplicates()
    new_f.to_csv("newfile.csv", index=False)

【问题讨论】:

    标签: python pandas duplicates


    【解决方案1】:

    你需要回传或传inplace=True

    new_f = new_f.drop_duplicates()
    

    new_f.drop_duplicates(inplace=True)
    

    docs 声明了这一点,通常几乎所有 pandas 操作都返回一个副本,大多数支持 inplace 参数,因此您需要分配回覆盖或在支持的情况下传递 inplace=true

    【讨论】:

      猜你喜欢
      • 2023-03-31
      • 2019-04-12
      • 2016-01-30
      • 2016-09-03
      • 1970-01-01
      • 2013-10-28
      • 1970-01-01
      • 2020-02-20
      • 2020-11-07
      相关资源
      最近更新 更多