【问题标题】:When should one use time series analysis vs. non-time series analysis?什么时候应该使用时间序列分析与非时间序列分析?
【发布时间】:2020-01-09 23:58:50
【问题描述】:

我正在尝试预测客户流失,为此我的因变量是一个二元变量。自变量可以是分类、整数或时间序列数据。我处于特征选择模式,想知道我是否在运行关联,是否应该对时间序列数据运行关联。如果我确实使用包装器方法并使用 ML 算法来解决此类问题,我是使用更适合时间序列分析的 ARIMA 模型还是决策树模型?

我尝试使用 Spearman 相关性,但没有找到任何显着的相关因变量

【问题讨论】:

  • 你确定你没有混淆你的因变量和自变量。我假设当您说“我的自变量是二进制变量”时,这是指您的活动/非活动成员资格(或任何适合您的服务的成员),对吗?如果是这样,这应该是因变量。你可能说错了,我可能误解了,或者这可能是你问题的过程。让我知道,然后我会跟进。另外,欢迎!
  • 托德,你是绝对正确的,我确实把它们混在一起了。我会更新这个问题。非常感谢您指出这一点。
  • 听起来不错。除此之外,您是否首先考虑过更基本的方法,例如逻辑回归或生存分析?您提到 Spearman 没有帮助,但这并不一定排除具有多个自变量的 logit 模型。
  • 嗨,托德,不,我还没有尝试过 logit 模型,今晚会这样做,然后返回我的观察结果。
  • 酷。如果您想自己(或其他人)发布示例代码也可以运行。我猜你正在使用 Python,这对 ML 有好处,但如果你熟悉 R,那么在进行更基本的统计分析时会更容易/更快。不知道你会做多少,但这是需要考虑的事情。

标签: python machine-learning churn


【解决方案1】:

您很可能应该这样做!由于流失率可能会受到自相关函数中显示的宏观经济问题的影响。我建议访问 statsmodel 并确保您了解 ACF 图和 PACF 图(可以很容易地使用 statsmodel 完成)以及 ARIMA 模型,以便您可以进行一些微调。至于特征选择,您可以尝试使用过拟合的神经网络或具有 L1 正则化的模型。 https://www.statsmodels.org/stable/index.html

【讨论】:

  • Celius,所以在这种情况下,我的因变量将是所有活跃期的 1,而流失期的 0,然后是所有时期的自变量值。这是正确的吗?
猜你喜欢
  • 2011-12-26
  • 1970-01-01
  • 2020-06-03
  • 2013-09-08
  • 2018-03-11
  • 2019-07-15
  • 2020-09-23
  • 1970-01-01
  • 2016-08-12
相关资源
最近更新 更多