处理回归（机器学习）中分类特征的未分配（空）值？答案

【问题标题】：Handling unassigned (null) values of categorical features in regression (machine learning)?处理回归（机器学习）中分类特征的未分配（空）值？
【发布时间】：2016-03-09 19:47:51
【问题描述】：

我想做线性回归分析。我有多个功能。对于数据中的某些项目，某些功能具有未分配的（空）值。对于序数特征（例如“年份”或“房间数”），我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征（例如颜色或区域）？为了更清楚，我提供了示例：

分类类型有几个特点：

Color, material, security, type, district

如何在没有太多复杂的插补方法的情况下在分类特征中插补空值？有人建议我将“Null”本身保留为单独的数据变体。因此，例如在“地区”列中，“空”将成为新的“地区”。对所有这些分类特征使用这种简单的插补是否合理，或者可能或多或少简单并且存在更好的插补方法？

【问题讨论】：

标签： null machine-learning regression linear-regression categorical-data

【解决方案1】：

是的，您可以使用 NULL 作为分类变量的新级别。如果您只需要对分类变量进行简单的插补方法，您还可以尝试使用该变量的最频繁级别（值）或对该数据集合理的一些简单规则进行插补。

【讨论】：