【发布时间】:2021-08-17 08:58:08
【问题描述】:
我的随机森林模型中的一个特征有缺失值。数据丢失有 5 个原因,我知道所有缺失值的原因。我的问题是如何将这些信息输入模型?由于数据丢失,我可以创建一个分类变量(或编码的虚拟变量),但是当我的主变量中存在缺失值时,如何确保随机森林从该分类变量中获取信息?
【问题讨论】:
-
只是将该变量的缺失值归为“空”或“未知”?
-
变量是连续的,所以我不确定这样做是否正确。
标签: matlab machine-learning random-forest