【发布时间】:2020-04-05 23:35:41
【问题描述】:
我在合成数据框中有一列“性别”,其 value_counts 如下所示:
df['Gender'].value_counts()
male 42758
female 27170
other 27060
unknown 6849
0 724
Name: Gender, dtype: int64
我正在预处理这个数据集以进行线性回归。将“0”和“未知”组合在一起并用“男性”替换它们是否有意义,因为“男性”是最常出现的值?
【问题讨论】:
-
基本上用模式替换。是的,这是有道理的
-
如果你想格外小心,你知道什么时候观察是未知的吗?它是随机的还是由某些原因引起的?女性更有可能成为未知数吗?有时将它们作为一个单独的类别可能会更好,但大多数次替换为模式可能就足够了。
-
这真的取决于你的人口。如果您将它们替换为
male,那么您大约有四分之三的男性。您是否期望在一般人群中出现这种情况?
标签: python pandas numpy machine-learning scikit-learn