【发布时间】:2020-01-09 23:58:50
【问题描述】:
我正在尝试预测客户流失,为此我的因变量是一个二元变量。自变量可以是分类、整数或时间序列数据。我处于特征选择模式,想知道我是否在运行关联,是否应该对时间序列数据运行关联。如果我确实使用包装器方法并使用 ML 算法来解决此类问题,我是使用更适合时间序列分析的 ARIMA 模型还是决策树模型?
我尝试使用 Spearman 相关性,但没有找到任何显着的相关因变量
【问题讨论】:
-
你确定你没有混淆你的因变量和自变量。我假设当您说“我的自变量是二进制变量”时,这是指您的活动/非活动成员资格(或任何适合您的服务的成员),对吗?如果是这样,这应该是因变量。你可能说错了,我可能误解了,或者这可能是你问题的过程。让我知道,然后我会跟进。另外,欢迎!
-
托德,你是绝对正确的,我确实把它们混在一起了。我会更新这个问题。非常感谢您指出这一点。
-
听起来不错。除此之外,您是否首先考虑过更基本的方法,例如逻辑回归或生存分析?您提到 Spearman 没有帮助,但这并不一定排除具有多个自变量的 logit 模型。
-
嗨,托德,不,我还没有尝试过 logit 模型,今晚会这样做,然后返回我的观察结果。
-
酷。如果您想自己(或其他人)发布示例代码也可以运行。我猜你正在使用 Python,这对 ML 有好处,但如果你熟悉 R,那么在进行更基本的统计分析时会更容易/更快。不知道你会做多少,但这是需要考虑的事情。
标签: python machine-learning churn