【问题标题】:Pandas categorical series showing duplicate category names. How to find the indexes?Pandas 分类系列显示重复的类别名称。如何找到索引?
【发布时间】:2020-12-11 07:52:20
【问题描述】:

当我运行这段代码时:

df19['tipo'] = df19['tipo'].astype('category')
df19.tipo.value_counts()

我得到以下输出:

CAS        1269
REF         667
QUE         408
CPPP        190
INH          60
COMP         25
EXC          22
REC          14
ACL           4
NUL           3
CAS           3
REP           3
AMICUS        2
AMI           2
RES           1
HON           1
PRE           1
QUE           1
QUE RET       1
ACLA          1
REV           1
Name: tipo, dtype: int64

如您所见,例如,有 1269 个“CAS”行,但还有 3 个其他“CAS”行(“QUE”也是如此)。我确信它们都应该包含在同一类别中,但是包含 las 3 值的单元格可能存在一些问题,因为 pandas 将它们解释为不同的类别。我尝试剥离空格,但没有奏效。还有什么可能导致这个问题?如果需要,我如何获取这 3 个“CAS”行的索引以便手动更正它们? 谢谢!

【问题讨论】:

  • 空白问题。 df19['tipo'].unique()
  • 您可以通过df19['tipo'].unique() 查看所有唯一值。这将确认您是否有空格,但这似乎是原因。

标签: python pandas dataframe data-science data-cleaning


【解决方案1】:

让我们试试

df19['tipo'].str.strip().value_counts()

【讨论】:

  • 谢谢,这成功了。我确实在使用str.strip(),但似乎没有保留更改。我现在尝试了df19.tipo = df19.tipo.str.strip() 谢谢!!
猜你喜欢
  • 2015-12-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-09-06
  • 1970-01-01
  • 2015-01-01
  • 2020-05-19
  • 1970-01-01
相关资源
最近更新 更多