【问题标题】:Model building methodology模型构建方法
【发布时间】:2018-02-01 11:07:08
【问题描述】:

我碰巧有一个 4000 行的数据集,其中目标变量有 3999 个 1,只有一个 0。

这是一个季度的数据,我应该计算下一个季度成功的概率。在这里应用逻辑回归是否可行?

或者谁能给我一个更好的选择?

【问题讨论】:

  • 你的意思是数据集如此不平衡(一个例子是假的,其他都是真的)?
  • 你有多少功能?
  • @DavidS1992 是的,非常不平衡。我有大约 20 到 25 个自变量/特征。
  • 对于这种不平衡的数据,您最好使用一类分类器并将负类视为异常值。另外,你能定义“成功的概率”吗?
  • 你有一个链接,我可以根据一个类分类器查找 python 代码吗?我所说的概率是指下一季度出现 1 的机会。

标签: machine-learning statistics logistic-regression


【解决方案1】:

我同意数据集过于不平衡。一个负面的例子不能在统计上显着。此外,您无法进行交叉验证,因此您甚至无法验证您的模型。

您可以尝试在较低维度上可视化数据,以检查负例是否明显是异常值。您可以查找“异常检测”主题以了解更多信息。

但是,如果 1 出现在下一季度,您将找不到答案,因为数据不正确。有了这样的数据,如果你有更多的负面例子,你就可以预测下一个具有给定特征的新样本的标签是什么。这不是下个季度出现类似数据集的概率的答案。

【讨论】:

    猜你喜欢
    • 2020-12-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多