【问题标题】:Removing Outliers in a Multi-feature Regression Problem去除多特征回归问题中的异常值
【发布时间】:2021-04-24 10:05:02
【问题描述】:

我有一个回归问题,有 1 个目标和 10 个特征。当我通过箱线图查看每个特征的异常值时,它们有不同数量的异常值。在删除异常值时,我是否还需要删除与这些异常值相关的目标值?

我的意思是,假设:对于#1 功能,我有 12 个异常值,我用 12 个目标值删除了它们。然后,对于#2 特征,我有 23 个异常值,并用 23 个目标值删除了它们,依此类推。程序是这样的,或者我应该如何进行?

【问题讨论】:

    标签: python regression


    【解决方案1】:

    我想你的每一行数据都包含一个 ID、目标值和 10 个特征值,每个特征一个。 回答我们的问题:如果要删除异常值,则必须删除整个观察/行 - 您分类为异常值的值,对应的目标值,以及所有其他 9 个相应的特征值。因此,您必须过滤每一行,以使 feature_i 的条目小于您定义为异常值的 threshold_i

    原因是多元线性回归计算一个特征的增量变化对目标的影响,假设所有其他 9 个特征都保持不变。在不删除目标的情况下删除单个特征值以及此观察的其他特征在这样的模型中根本不起作用(假设您使用的是 OLS)。

    但是,我会谨慎删除异常值。我不知道您的样本量以及您认为什么是异常值,这将有助于更多地了解您的研究问题、数据和方法。

    【讨论】:

    • 数据大小为 585。我现在正在尝试局部异常因子方法,但我会检查其他方法的异常值。实际上,我已经尝试过不同的回归模型,现在我想看看去除异常值对模型性能的影响..
    • 请问,当您提到异常值时,您是指特征中的异常值吗?我会认为异常值通常是指观察/响应。想澄清删除特征异常值的原因
    • 是的,我的意思是在简单地创建箱线图之后的特征中的异常值。
    猜你喜欢
    • 2021-05-03
    • 2016-07-01
    • 2015-07-09
    • 2018-12-18
    • 2021-12-07
    • 2022-01-13
    • 2018-10-04
    • 2020-10-13
    • 2012-05-21
    相关资源
    最近更新 更多