【发布时间】:2016-03-09 19:47:51
【问题描述】:
我想做线性回归分析。我有多个功能。对于数据中的某些项目,某些功能具有未分配的(空)值。对于序数特征(例如“年份”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类特征(例如颜色或区域)? 为了更清楚,我提供了示例:
分类类型有几个特点:
Color, material, security, type, district
如何在没有太多复杂的插补方法的情况下在分类特征中插补空值?有人建议我将“Null”本身保留为单独的数据变体。因此,例如在“地区”列中,“空”将成为新的“地区”。对所有这些分类特征使用这种简单的插补是否合理,或者可能或多或少简单并且存在更好的插补方法?
【问题讨论】:
标签: null machine-learning regression linear-regression categorical-data