【问题标题】:Handling unassigned (null) values of features in regression (machine learning)?处理回归(机器学习)中特征的未分配(空)值?
【发布时间】:2016-03-07 11:01:48
【问题描述】:

我想做线性回归分析。我有多种功能。对于数据中的某些项目,某些功能具有未分配的(空)值。因为对于某些项目,数据源中缺少一些特定的特征值。为了更清楚,我提供示例:

如您所见,某些项目缺少某些功能的值。现在,我只是将它分配给“Null”,但是在对数据进行线性回归分析时如何处理这个值?我不希望这个未分配的值错误地影响回归模型。不幸的是,我无法摆脱出现未分配特征值的项目。我计划使用 Python 进行回归。

【问题讨论】:

    标签: python null machine-learning regression linear-regression


    【解决方案1】:

    您需要忽略这些行 - 您已经说过不能,而且缺失值的数量不是一个好主意 - 或者使用主动折扣这些项目的算法,或估算(即填充有根据的猜测的技术术语)缺失的数据。

    我们可以提供的帮助有限,因为您没有为我们提供您想要的丢失数据的语义。您可以根据您拥有的数据使用您最喜欢的“最接近匹配”算法来估算一些缺失值。例如,您很可能能够从其他数据中推断出很好的面积猜测。

    对于您的非线性离散项目(即地区),您可能希望将 NULL 保留为单独的地区。如果您缺少足够少的条目,那么无论如何您都可以得到一个像样的模型。

    一个简单的插补是将每个 NULL 替换为特征的平均值,但这仅适用于具有适当平均值的那些(即 not 区)。

    总的来说,我建议您搜索有关“估算缺失数据”的适当参考资料。由于我们不确定您的需求,因此我们对此无能为力,而且这样做超出了 SO 的范围。

    【讨论】:

      猜你喜欢
      • 2016-03-09
      • 1970-01-01
      • 2016-03-08
      • 2013-06-23
      • 2015-12-11
      • 2019-09-29
      • 2015-02-09
      • 2019-07-14
      • 1970-01-01
      相关资源
      最近更新 更多