Pandas 分类系列显示重复的类别名称。如何找到索引？答案

【问题标题】：Pandas categorical series showing duplicate category names. How to find the indexes?Pandas 分类系列显示重复的类别名称。如何找到索引？
【发布时间】：2020-12-11 07:52:20
【问题描述】：

当我运行这段代码时：

df19['tipo'] = df19['tipo'].astype('category')
df19.tipo.value_counts()

我得到以下输出：

CAS        1269
REF         667
QUE         408
CPPP        190
INH          60
COMP         25
EXC          22
REC          14
ACL           4
NUL           3
CAS           3
REP           3
AMICUS        2
AMI           2
RES           1
HON           1
PRE           1
QUE           1
QUE RET       1
ACLA          1
REV           1
Name: tipo, dtype: int64

如您所见，例如，有 1269 个“CAS”行，但还有 3 个其他“CAS”行（“QUE”也是如此）。我确信它们都应该包含在同一类别中，但是包含 las 3 值的单元格可能存在一些问题，因为 pandas 将它们解释为不同的类别。我尝试剥离空格，但没有奏效。还有什么可能导致这个问题？如果需要，我如何获取这 3 个“CAS”行的索引以便手动更正它们？谢谢！

【问题讨论】：

空白问题。 df19['tipo'].unique()
您可以通过df19['tipo'].unique() 查看所有唯一值。这将确认您是否有空格，但这似乎是原因。

标签： python pandas dataframe data-science data-cleaning

【解决方案1】：

让我们试试

df19['tipo'].str.strip().value_counts()

【讨论】：

谢谢，这成功了。我确实在使用str.strip()，但似乎没有保留更改。我现在尝试了df19.tipo = df19.tipo.str.strip() 谢谢！！