如何处理分类变量列中的 0 值？答案

【问题标题】：How to handle 0 value in categoric variable column?如何处理分类变量列中的 0 值？
【发布时间】：2020-04-05 23:35:41
【问题描述】：

我在合成数据框中有一列“性别”，其 value_counts 如下所示：

df['Gender'].value_counts()

    male       42758
    female     27170
    other      27060
    unknown     6849
    0            724
    Name: Gender, dtype: int64

我正在预处理这个数据集以进行线性回归。将“0”和“未知”组合在一起并用“男性”替换它们是否有意义，因为“男性”是最常出现的值？

【问题讨论】：

基本上用模式替换。是的，这是有道理的
如果你想格外小心，你知道什么时候观察是未知的吗？它是随机的还是由某些原因引起的？女性更有可能成为未知数吗？有时将它们作为一个单独的类别可能会更好，但大多数次替换为模式可能就足够了。
这真的取决于你的人口。如果您将它们替换为male，那么您大约有四分之三的男性。您是否期望在一般人群中出现这种情况？
datascience.stackexchange.com/questions/39058/…
stackoverflow.com/questions/33113947/…

标签： python pandas numpy machine-learning scikit-learn

【解决方案1】：

您可以删除这些行，因为与此列的其他级别相比，它们的数量非常少。
另一种解决方案是使用其他行的中值、众数或最接近的值删除 then 值和 fillna。

【讨论】：