【问题标题】:How to handle 0 value in categoric variable column?如何处理分类变量列中的 0 值?
【发布时间】:2020-04-05 23:35:41
【问题描述】:

我在合成数据框中有一列“性别”,其 value_counts 如下所示:

df['Gender'].value_counts()

    male       42758
    female     27170
    other      27060
    unknown     6849
    0            724
    Name: Gender, dtype: int64

我正在预处理这个数据集以进行线性回归。将“0”和“未知”组合在一起并用“男性”替换它们是否有意义,因为“男性”是最常出现的值?

【问题讨论】:

  • 基本上用模式替换。是的,这是有道理的
  • 如果你想格外小心,你知道什么时候观察是未知的吗?它是随机的还是由某些原因引起的?女性更有可能成为未知数吗?有时将它们作为一个单独的类别可能会更好,但大多数次替换为模式可能就足够了。
  • 这真的取决于你的人口。如果您将它们替换为male,那么您大约有四分之三的男性。您是否期望在一般人群中出现这种情况?

标签: python pandas numpy machine-learning scikit-learn


【解决方案1】:
  • 您可以删除这些行,因为与此列的其他级别相比,它们的数量非常少。
  • 另一种解决方案是使用其他行的中值、众数或最接近的值删除 then 值和 fillna。

【讨论】:

    猜你喜欢
    • 2020-05-22
    • 1970-01-01
    • 2014-09-02
    • 1970-01-01
    • 2021-08-22
    • 2018-01-22
    • 1970-01-01
    • 1970-01-01
    • 2021-12-14
    相关资源
    最近更新 更多