【发布时间】:2019-10-09 19:15:27
【问题描述】:
在 python 3 和 pandas 中,我需要通过重复列中的值来消除数据框中的重复行。为此我使用了:
consolidado = df_processos.drop_duplicates(['numero_unico'], keep='last')
“numero_unico”列具有字符串格式的代码,例如 0029126-45.2019.1.00.0000、0026497-98.2019.1.00.0000、0027274-83.2019.1.00.0000...
所以上面的命令只保留最后找到的字符串代码外观
请问有人知道如何使用 drop_duplicates 吗?
但列内容并不总是字符串代码。在几行中出现内容“Sem número único”
我想保留所有存在此异常的行。但是使用上面的命令,生成的数据框只保留“Sem número único”的最后一次出现
【问题讨论】:
-
删除具有“Sem número único”的行,对原始 df 执行 dedup,然后将“Sem número único”行合并回
标签: python pandas dataframe exception drop-duplicates