R 时间序列 - 识别缺失的观测值（时间戳）并插入 NA 以创建给定长度的时间序列答案

【问题标题】：R timeseries - identify missing observations (timestamps) and insert NAs to create time series of given lengthR 时间序列 - 识别缺失的观测值（时间戳）并插入 NA 以创建给定长度的时间序列
【发布时间】：2015-02-04 17:48:17
【问题描述】：

我有一组 24 个分组（分层）时间序列，据说运行时间超过 3 年，我想查看每月销售额，但结果发现其中一些缺少观察结果，例如

getCounts(Shop1, ...)
2011-01 2011-02 2011-03 2011-04 2011-05 2011-06 2011-07 2011-08 2011-09 2011-10 2011-11 2011-12 2012-02 2012-03 2012-04 2012-05 2012-06 2012-07 2012-08 2012-09 2012-10 2012-11 
 10      22      10      12      36      31      25      19       7       7       7       5       1       9       9      11      10      16      25       3       2       5

缺少 2012 年 1 月的观测，并在 2012 年 11 月结束，尽管它应该运行到 2013 年 12 月。

getCounts 使用命令

with(myDF, tapply(varName, substr(dateName, 1, 7), sum))

获取每月计数。

我想用 NA 替换时间序列中间和末尾的缺失观测值，这样我的所有时间序列都有相同数量的观测值，如果有任何“漏洞”，它们会在绘图中可见。

谁能帮我做这个？

谢谢！

编辑：我的首选输出是这样的：

      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
2011   1  NA   2   3   4   5   6  NA   7   8   9  10
2012   2   3   4   5   6  NA  NA  NA  NA  NA  NA  NA

每个 NA 都在替换缺失的观测值。

编辑 2：getCounts() 如下所示：

getCounts <- function(dataObject, dateName, varName){ 
dataNameString <- deparse(substitute(dataObject))   
countsStr <- paste0("with(", dataNameString,", tapply(", varName, ", substr(", dateName, ", 1, 7), sum))")
counts <- eval(parse(text = countsStr))
return(counts)
}

这是输出：

structure(c(10, 22, 10, 12, 36, 31, 25, 19, 7, 7, 7, 5, 1, 9, 
9, 11, 10, 16, 25, 3, 2, 5), .Dim = 22L, .Dimnames = list(c("2011-01", 
"2011-02", "2011-03", "2011-04", "2011-05", "2011-06", "2011-07", 
"2011-08", "2011-09", "2011-10", "2011-11", "2011-12", "2012-02", 
"2012-03", "2012-04", "2012-05", "2012-06", "2012-07", "2012-08", 
"2012-09", "2012-10", "2012-11")))

【问题讨论】：

您想要的输出将是什么样子。不清楚是要修改getCounts输出还是实际数据。
只要我得到正确的输出，我必须修改什么并不重要。
你能提供getCounts(Shop1, ...)的dput吗？它只是一个命名向量吗？
保存x <- getCounts(Shop1, ...) 和做dput(x)
我将函数getCounts() 放在了编辑中。 getCounts() 的输出看起来像我提供的第一个输出，包括时间戳。我希望它用NA替换中间缺失的观察值（例如"2012-01"），并在末尾添加NAs，直到所需的长度（此处为36）。我不知道如何在中间找到缺失的观察结果并将它们替换为NA - 除了手动执行之外，我认为这不可行:)

标签： r time-series

【解决方案1】：

试试这个

df <- data.frame(Year = substr(names(x), 1, 4),
                 Month = factor(month.abb[as.numeric(substr(names(x), 6, 7))], 
                         levels = month.abb),
                 Value = x)

library(tidyr)
spread(df, Month, Value)
#   Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1 2011  10  22  10  12  36  31  25  19   7   7   7   5
# 2 2012  NA   1   9   9  11  10  16  25   3   2   5  NA

数据

x <- structure(c(10, 22, 10, 12, 36, 31, 25, 19, 7, 7, 7, 5, 1, 9, 
                 9, 11, 10, 16, 25, 3, 2, 5), .Dim = 22L, .Dimnames = list(c("2011-01", 
                 "2011-02", "2011-03", "2011-04", "2011-05", "2011-06", "2011-07", 
                 "2011-08", "2011-09", "2011-10", "2011-11", "2011-12", "2012-02", 
                 "2012-03", "2012-04", "2012-05", "2012-06", "2012-07", "2012-08", 
                 "2012-09", "2012-10", "2012-11")))

【讨论】：

您的解决方案有效，但为了进行进一步分析（使用 hts 包），我还需要将数据作为向量，不一定带有时间戳，这样我就可以创建一个大 ts 矩阵出他们。很抱歉，我不清楚这一点。有没有办法从该输出中提取计数（使用 NA），还是完全做其他事情更好？
向量是什么意思？你是说矩阵吗？你可以在结果上使用as.matrix
as.matrix()返回一个字符串值矩阵，包括年份"2011" 和"2012"。我只想要每个月的计数。
我不知道你想要的输出是什么。 spread(df, Year, Value)[-1] 有帮助吗？
如果我使用as.numeric(as.matrix(spread(df, Month, Value)))[3:26]，那么我会得到每月值的向量。使用 as.numeric(as.matrix(spread(df, Year, Value)[-1])) 也可以，因此我不需要从结果向量中删除前两个条目。