【发布时间】:2018-03-12 15:00:41
【问题描述】:
我有一个数据集,其中一些变量(分类变量和数值变量)有缺失值。例如,我有一个变量“面积”,其数值分为两类,“面积(今天)”和“面积(-1 天)”。如果一个数据行归类为“新来者”,那么它在“区域(-1 天)”上将没有任何值。因此,正常的缺失值处理(如删除)或意味着在这里不起作用。我是否必须将“区域(-1 天)”上的任何值标记为变量最初为数字的类别?或者,还有其他建议吗?
【问题讨论】:
-
为什么第-1天的面积不能为零?
-
因为有可能出现一个“新来者”,其面积为零(面积 >= 0),并将其归类为特定类别。
标签: machine-learning classification decision-tree data-analysis missing-data