模型构建方法答案

【问题标题】：Model building methodology模型构建方法
【发布时间】：2018-02-01 11:07:08
【问题描述】：

我碰巧有一个 4000 行的数据集，其中目标变量有 3999 个 1，只有一个 0。

这是一个季度的数据，我应该计算下一个季度成功的概率。在这里应用逻辑回归是否可行？

或者谁能给我一个更好的选择？

【问题讨论】：

【解决方案1】：

我同意数据集过于不平衡。一个负面的例子不能在统计上显着。此外，您无法进行交叉验证，因此您甚至无法验证您的模型。

您可以尝试在较低维度上可视化数据，以检查负例是否明显是异常值。您可以查找“异常检测”主题以了解更多信息。

但是，如果 1 出现在下一季度，您将找不到答案，因为数据不正确。有了这样的数据，如果你有更多的负面例子，你就可以预测下一个具有给定特征的新样本的标签是什么。这不是下个季度出现类似数据集的概率的答案。

【讨论】：