【发布时间】:2018-01-23 18:55:52
【问题描述】:
在 pandas 中删除重复项时观察到一些看似不一致的行为。
问题设置:我有一个包含三列和 3330 个时间序列观察的数据框,如下所示:
数据描述() 平均买入卖出 数 3330 3330 3330检查数据是否包含任何重复项,表明存在重复索引。
data.index.duplicated().any() 真的数据中有多少重复项
data.loc[data.index.duplicated()].count() 平均 38 买 38 卖 38也可以目视检查重复项
`数据[data.index.duplicated()]`困境:显然,数据中有重复项,似乎每列有 38 个重复项。但是,当我使用 DataFrame 的 drop_duplicates() 时,似乎丢弃的数据比预期的要多。
`data.drop_duplicates().count()` 平均 3241 购买 3241 卖 3241 数据类型:int64 `data.count() - data.drop_duplicates().count()` 平均 89 买 89 卖 89任何关于造成这种差异的原因或我遗漏的细节的想法都将不胜感激。注意:可能有类似的数据条目,但日期不应重复,因此清理数据的合理方法是删除重复的日期。
【问题讨论】: