【问题标题】:ANOVA test on time series data时间序列数据的方差分析
【发布时间】:2021-05-31 01:21:24
【问题描述】:

在下面的 Analytics Vidya 帖子中,对 COVID 数据进行了 ANOVA 测试,以检查较密集区域的阳性病例差异是否具有统计学意义。

我认为无法对这个 COVID 时间序列数据执行 ANOVA 测试,至少不像本文中那样进行。 样本数据是从不同组(denser1、denser2…denser4)中随机考虑的。数据是时间序列,因此组随机样本中的阳性病例数更有可能来自不同的时间点。 可能会出现这样的情况,denser1 具有来自早期 covid 时间的随机数据,而另一个区域具有来自另一个时间点的随机数据。如果是这样,那么 F-Statistics 肯定会很高。

如果你有其他意见,谁能解释一下?

https://www.analyticsvidhya.com/blog/2020/06/introduction-anova-statistics-data-science-covid-python/

【问题讨论】:

    标签: statistics anova hypothesis-test


    【解决方案1】:

    ANOVA 不应应用于时间序列数据,因为违反了独立性假设。独立性的问题是,日子往往高度相关。例如,如果您知道今天有 1400 例阳性病例,那么无论任何潜在趋势如何,您都会预计明天会有相似数量的阳性病例。

    听起来您正在尝试确定不同治疗方法的因果关系(即口罩要求或其他限制等)及其对阳性病例的影响。推断因果关系的最佳方法通常是进行 A-B 测试,但显然在这种情况下,对不同人群进行不同的处理是不合理的。一种有利于追溯并追溯因果关系的方法称为“综合控制”。

    https://economics.mit.edu/files/17847

    以上链接了有关该方法的基本论文。此分析的难点在于构建合成反事实或“对照”来测试您的实际人口。

    如果这不是您想要的,请回答一个澄清问题,但我认为这应该是一种非常适合研究时间序列数据的适当方法。

    【讨论】:

      猜你喜欢
      • 2019-07-15
      • 2015-12-06
      • 1970-01-01
      • 2016-08-15
      • 1970-01-01
      • 2019-08-10
      • 1970-01-01
      • 2020-08-02
      • 1970-01-01
      相关资源
      最近更新 更多