【发布时间】:2020-12-11 07:52:20
【问题描述】:
当我运行这段代码时:
df19['tipo'] = df19['tipo'].astype('category')
df19.tipo.value_counts()
我得到以下输出:
CAS 1269
REF 667
QUE 408
CPPP 190
INH 60
COMP 25
EXC 22
REC 14
ACL 4
NUL 3
CAS 3
REP 3
AMICUS 2
AMI 2
RES 1
HON 1
PRE 1
QUE 1
QUE RET 1
ACLA 1
REV 1
Name: tipo, dtype: int64
如您所见,例如,有 1269 个“CAS”行,但还有 3 个其他“CAS”行(“QUE”也是如此)。我确信它们都应该包含在同一类别中,但是包含 las 3 值的单元格可能存在一些问题,因为 pandas 将它们解释为不同的类别。我尝试剥离空格,但没有奏效。还有什么可能导致这个问题?如果需要,我如何获取这 3 个“CAS”行的索引以便手动更正它们? 谢谢!
【问题讨论】:
-
空白问题。
df19['tipo'].unique() -
您可以通过
df19['tipo'].unique()查看所有唯一值。这将确认您是否有空格,但这似乎是原因。
标签: python pandas dataframe data-science data-cleaning