什么时候应该使用时间序列分析与非时间序列分析？答案

【问题标题】：When should one use time series analysis vs. non-time series analysis?什么时候应该使用时间序列分析与非时间序列分析？
【发布时间】：2020-01-09 23:58:50
【问题描述】：

我正在尝试预测客户流失，为此我的因变量是一个二元变量。自变量可以是分类、整数或时间序列数据。我处于特征选择模式，想知道我是否在运行关联，是否应该对时间序列数据运行关联。如果我确实使用包装器方法并使用 ML 算法来解决此类问题，我是使用更适合时间序列分析的 ARIMA 模型还是决策树模型？

我尝试使用 Spearman 相关性，但没有找到任何显着的相关因变量

【问题讨论】：

你确定你没有混淆你的因变量和自变量。我假设当您说“我的自变量是二进制变量”时，这是指您的活动/非活动成员资格（或任何适合您的服务的成员），对吗？如果是这样，这应该是因变量。你可能说错了，我可能误解了，或者这可能是你问题的过程。让我知道，然后我会跟进。另外，欢迎！
托德，你是绝对正确的，我确实把它们混在一起了。我会更新这个问题。非常感谢您指出这一点。
听起来不错。除此之外，您是否首先考虑过更基本的方法，例如逻辑回归或生存分析？您提到 Spearman 没有帮助，但这并不一定排除具有多个自变量的 logit 模型。
嗨，托德，不，我还没有尝试过 logit 模型，今晚会这样做，然后返回我的观察结果。
酷。如果您想自己（或其他人）发布示例代码也可以运行。我猜你正在使用 Python，这对 ML 有好处，但如果你熟悉 R，那么在进行更基本的统计分析时会更容易/更快。不知道你会做多少，但这是需要考虑的事情。

标签： python machine-learning churn

【解决方案1】：

您很可能应该这样做！由于流失率可能会受到自相关函数中显示的宏观经济问题的影响。我建议访问 statsmodel 并确保您了解 ACF 图和 PACF 图（可以很容易地使用 statsmodel 完成）以及 ARIMA 模型，以便您可以进行一些微调。至于特征选择，您可以尝试使用过拟合的神经网络或具有 L1 正则化的模型。 https://www.statsmodels.org/stable/index.html

【讨论】：

Celius，所以在这种情况下，我的因变量将是所有活跃期的 1，而流失期的 0，然后是所有时期的自变量值。这是正确的吗？