【问题标题】:Removing columns containing duplicated data from a pandas dataframe? [duplicate]从熊猫数据框中删除包含重复数据的列? [复制]
【发布时间】:2019-06-19 18:04:48
【问题描述】:

如果我有如下数据框:

|  Column A  |  Column B  |  Column C  |  Column D  |  Column E  |
|:-----------|:---------- |:-----------|:-----------|:-----------|
| 1          | 7          | 1          | 13         | 13         |
| 2          | 8          | 2          | 14         | 13         |
| 3          | 9          | 3          | 15         | 13         |
| 4          | 10         | 4          | 16         | 13         |
| NA         | 11         | NA         | 17         | 13         |
| 6          | 12         | 6          | 1          | 13         |

我想删除重复的列 A(或 C),忽略列 E 具有重复行的事实,并忽略列标题。

【问题讨论】:

    标签: python pandas dataframe


    【解决方案1】:

    你可以转置然后转回:

    df.T.drop_duplicates().T
    

    【讨论】:

      【解决方案2】:

      您可以使用 DataFrame.duplicated 执行此操作,使用 keep 以保留第一个或最后一个重复的列:

      df.loc[:,~df.T.duplicated(keep='first')]
      
          Column A  Column B  Column D  Column E
      0      1.0        7       13       13
      1      2.0        8       14       13
      2      3.0        9       15       13
      3      4.0       10       16       13
      4      NaN       11       17       13
      5      6.0       12        1       13
      

      【讨论】:

        猜你喜欢
        • 2020-03-23
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-09-27
        • 2016-11-12
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多