【问题标题】:Handling unassigned (null) values of categorical features in regression (machine learning)?处理回归(机器学习)中分类特征的未分配(空)值?
【发布时间】:2016-03-09 19:47:51
【问题描述】:

我想做线性回归分析。我有多个功能。对于数据中的某些项目,某些功能具有未分配的(空)值。对于序数特征(例如“年份”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)? 为了更清楚,我提供了示例:

分类类型有几个特点:

Color, material, security, type, district

如何在没有太多复杂的插补方法的情况下在分类特征中插补空值?有人建议我将“Null”本身保留为单独的数据变体。因此,例如在“地区”列中,“空”将成为新的“地区”。对所有这些分类特征使用这种简单的插补是否合理,或者可能或多或少简单并且存在更好的插补方法?

【问题讨论】:

    标签: null machine-learning regression linear-regression categorical-data


    【解决方案1】:

    是的,您可以使用 NULL 作为分类变量的新级别。如果您只需要对分类变量进行简单的插补方法,您还可以尝试使用该变量的最频繁级别(值)或对该数据集合理的一些简单规则进行插补。

    【讨论】:

      猜你喜欢
      • 2016-03-07
      • 2015-02-09
      • 2015-12-11
      • 1970-01-01
      • 2021-04-01
      • 2016-03-08
      • 1970-01-01
      • 2016-09-10
      • 2013-06-23
      相关资源
      最近更新 更多