【问题标题】:Accurate prediction of outlier values异常值的准确预测
【发布时间】:2018-12-20 22:49:34
【问题描述】:

我正在研究与血压计算相关的医学数据(回归问题)。我目前拥有的数据集缺少收缩压和舒张压极值的数字。我目前使用的算法是神经网络和 XGBoost,它们都将极值作为异常值并给出高MAE 对异常值的预测。有没有办法可以调整算法或数据集,以便算法可以对“异常值”值做出合理的预测?我听说因变量的对数尺度转换可以是一个解决方案,对吗?还有其他方法吗?

提前致谢 阿琼

【问题讨论】:

  • 在此处发布您的问题时请不要大喊大叫。它不会让你更快地回答,它会使文本更难阅读,坦率地说,这很粗鲁。

标签: machine-learning neural-network xgboost outliers


【解决方案1】:

对数尺度转换将使您的目标分布看起来像正常(可能)。如果是这样 - 你很幸运。

如果它不起作用:

  1. 从数据集中删除异常值。此刻,他们带来的只是噪音。这完全损害了模型。
  2. 在正常值上构建一个模型(回归),在异常值上构建另一个模型。您可以尝试简化的最后一个:将输入值编码为 0 和 1(正常值和异常值)。
  3. 使用更简单的模型(线性:从套索开始,休伯特)。 NN 和 XGB 等复杂模型最终会过度拟合您的少数极端情况。

这些是常见的方法。但是,一般来说,您需要返回 EDA 并尝试分析这些极端情况:绘制分布图,了解收缩压和舒张压极端情况之间的依赖性,极端情况和目标变量之间的相同依赖性(和相关性)等等。

【讨论】:

    猜你喜欢
    • 2022-12-25
    • 2012-07-10
    • 2020-04-18
    • 2018-08-24
    • 1970-01-01
    • 2016-06-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多