【发布时间】:2018-02-01 11:07:08
【问题描述】:
我碰巧有一个 4000 行的数据集,其中目标变量有 3999 个 1,只有一个 0。
这是一个季度的数据,我应该计算下一个季度成功的概率。在这里应用逻辑回归是否可行?
或者谁能给我一个更好的选择?
【问题讨论】:
-
你的意思是数据集如此不平衡(一个例子是假的,其他都是真的)?
-
你有多少功能?
-
@DavidS1992 是的,非常不平衡。我有大约 20 到 25 个自变量/特征。
-
对于这种不平衡的数据,您最好使用一类分类器并将负类视为异常值。另外,你能定义“成功的概率”吗?
-
你有一个链接,我可以根据一个类分类器查找 python 代码吗?我所说的概率是指下一季度出现 1 的机会。
标签: machine-learning statistics logistic-regression