【发布时间】:2017-05-18 21:47:07
【问题描述】:
我正在研究一个目标变量是停电持续时间的机器学习场景。
目标变量的分布严重偏右(您可以想象大多数停电发生并很快结束,但是有很多异常值可以持续更长时间)这些停电很多变得更少随着持续时间越来越长,数据的“可解释性”越来越少。它们或多或少成为“独特的中断”,即现场发生的事件不一定是其他中断的“典型”,也没有记录这些事件的具体数据,而不是所有其他“典型”中断已经可用的数据。
这会导致创建模型时出现问题。这些无法解释的数据与可解释的部分混合在一起,也扭曲了模型的预测能力。
我分析了一些百分位数,以确定一个我认为包含尽可能多的中断的点,同时我仍然认为持续时间大部分是可以解释的。这大约是 320 分钟大关,包含了大约 90% 的中断。
这在我看来完全是主观的,我知道必须有某种程序才能确定此目标变量的“最佳”截止点。理想情况下,我希望这个程序足够稳健,以考虑权衡尽可能多的数据,而不是告诉我要截断 2 个小时,从而裁掉大量客户作为此目的是为尽可能多的客户提供准确的预计恢复时间。
仅供参考:我现在使用的建模方法似乎效果最好的是随机森林和条件随机森林。我在这个场景中使用的方法包括多元线性回归、决策树、随机森林和条件随机森林。 MLR 是迄今为止效果最差的。 :(
【问题讨论】:
标签: machine-learning statistics data-mining data-manipulation