【发布时间】:2017-11-10 22:47:13
【问题描述】:
我正在分析一组数据,我需要找到它的回归。数据集中的数据点数量很少(~15),我决定使用稳健的线性回归来完成这项工作。问题是该程序选择了一些似乎没有那么有影响力的异常点。这是数据的散点图,它们的影响用作大小:
B点和C点(图中红色圆圈所示)被选为异常值,而影响更大的A点则没有。虽然 A 点并没有改变回归的总体趋势,但它基本上是沿着 X 最高的点定义斜率。而 B 点和 C 点只影响斜率的显着性。所以我的问题有两个部分: 1)如果没有选择最有影响的点,RLM包选择异常值的方法是什么,你知道我想到的其他有异常值选择的包吗? 2) 你认为A点是异常值吗?
【问题讨论】:
标签: python regression linear-regression statsmodels