计算2000行时间序列的趋势并隔离异常行答案

【问题标题】：Calculate the trend for 2000-rows time series and isolate the abnormal rows计算2000行时间序列的趋势并隔离异常行
【发布时间】：2014-12-26 12:54:32
【问题描述】：

我有一个 R 数据框，它描述了产品销售的演变过程。每季度 2000 家商店，有 5 列（即 5 个时间段）。我想知道如何用R分析它。

我已经试着做了一些基本的分析，就是先确定第一期、第二期等的平均销售额，然后确定每个期的平均值，然后比较每个期的演变情况。店铺相对于这个大体演变。例如，第一期总共有 50 000 个销售额，第 5 期总共有 35 000 个销售额，所以我假设每个商店在第 5 期的正常销售额是 35/55=0.63*第 1 期的金额period's sale：如果店铺X在第一期卖出了100件，我假设它在第五期正常应该卖出63件。

显然，这是一种简单易行的方法，但在统计上并不相关。

我想要一种方法，它可以让我确定一个最小化我的 R 格的趋势抑制。我的目标是能够通过中和总体趋势来分析商店的销售额：我想通过统计上正确的方法准确了解哪些是表现不佳的商店和哪些是表现出色的商店 .

我的数据框是这样构造的：

shopID | sum | qt1 | qt2 | qt3 | qt4 | qt5
000001 | 150 | 45  | 15  | 40  | 25  | 25
000002 | 100 | 20  | 20  | 20  | 20  | 20
000003 | 500 | 200 | 0   | 100 | 100 | 100
... (2200 rows)

我尝试将我的时间序列放在一个列表中，这是成功的，具有以下功能：

reversesales=t(data.frame(sales$qt1,sales$qt2,sales$qt3,sales$qt4,sales$qt5))
# I reverse rows and columns of the frame in order that the time periods be the rows
timeser<-ts(reversesales,start=1,end=5, deltat=1/4)
# deltat=1/4 because it is a quarterly basis, 1 and 5 because I have 5 quarters

不过，我无法对这个变量做任何事情。我不能做任何情节（使用“情节”功能），因为有 2200 行（所以 R 想让我连续绘制 2200 个情节，显然这不是我想要的）。

另外，我不知道如何确定每个店铺每个时期的销售额的理论趋势和理论值...

感谢您的帮助！（圣诞快乐）

【问题讨论】：

我建议使用混合模型确定整体趋势，然后将个别商店的表现与此趋势进行比较
您的意思是，通过计算每个季度的总销售额来确定总体趋势，然后将该趋势应用于每个单独的商店？
没有。在这种方法中，您将各个商店视为随机效应。在此处查找描述en.wikipedia.org/wiki/Random_effects_model
你能提供你的数据吗？
不，很抱歉我不能（非常敏感的数据）。但这真的很像我在第一条消息中插入的数据框。我理解随机效应模型。在这里，我猜趋势是：销售额 ~ alpha + beta*time，或者一些类似的估计与 t² 或类似的东西。但我不知道如何在 R 中对其进行建模。

标签： r time-series trend

【解决方案1】：

混合模型的实现：

install.packages("nlme")
library("nlme")
library(dplyr)

# Generating some data with a structure like yours:
start <- round(sample(10:100, 50, replace = TRUE)*runif(50))
df <- data_frame(shopID = 1:50, qt1 = start, qt2 =round(qt1*runif(50, .5, 2)) ,qt3 = round(qt2*runif(50, .5, 2)), qt4 = round(qt3*runif(50, .5, 2)), qt5 = round(qt4*runif(50, .5, 2)))
df <- as.data.frame(df)

# Converting in into the long format:
df <- reshape(df, idvar = "shopID", varying = names(df)[-1], direction = "long", sep = "")

Estimating the model:
mod <- lme(qt ~ time, random = ~ time | shopID, data = df)

# Extract the random effects for comparison:
random.effects(mod)
(Intercept)        time
1   74.0790805   3.7034172
2    7.8713699   4.2138001
3   -8.0670810  -5.8754060
4  -16.5114428  16.4920663
5  -16.7098229   6.4685228
6  -11.9630688  -8.0411504
7  -12.9669777  21.3071366
8  -24.1099280  32.9274361
9    8.5107335  -9.7976905
10 -13.2707679  -6.6028927
11   3.6206163  -4.1017784
12  21.2342886  -6.7120725
13 -14.6489512  11.6847109
14 -14.7291647   2.1365768
15  10.6791941   3.2097199
16 -14.1524187  -1.6933291
17   5.2120647   8.0119320
18  -2.5172933  -6.5011416
19  -9.0094366  -5.6031271
20   1.4857512  -5.9913865
21 -16.5973442   3.5164298
22 -26.7724763  27.9264081
23  49.0764631 -12.9800871
24  -0.1512509   2.3589947
25  15.7723150  -7.9295698
26   2.1955489  11.0318875
27  -8.0890346  -5.4145977
28   0.1338790  -8.3551182
29   9.7113758  -9.5799588
30  -6.0257683  42.3140432
31 -15.7655545  -8.6226255
32  -4.1450984  18.7995079
33   4.1510104  -1.6384103
34   2.5107652  -2.0871890
35 -23.8640815   7.6680185
36 -10.8228653  -7.7370976
37 -14.1253093  -8.1738468
38  42.4114024  -9.0436585
39 -10.7453627   2.4590883
40 -12.0947901  -5.2763010
41  -7.6578305  -7.9630013
42 -14.9985612  -0.4848326
43 -13.4081771  -7.2655456
44 -11.5646620  -7.5365387
45   6.9116844 -10.5200339
46  70.7785492 -11.5522014
47  -7.3556367  -8.3946072
48  27.3830419  -6.9049164
49  14.3188079  -9.9334156
50 -15.2077850  -7.9161690

我将这些值解释如下：将它们视为与零的偏差，因此正值是与平均值的正偏差，而负值是与平均值的负偏差。两列的平均值为零，如下所示：

round(apply(random.effects(mod), 2, mean))
(Intercept)        time 
0           0

【讨论】：

【解决方案2】：

library(zoo)

#Reconstructing the data with four quarter columns (instead of five quarters as in your example)

shopID <- c(1, 2, 3, 4, 5)
sum <- c(150, 100, 500, 350, 50) 
qt1 <- c(40, 10, 130, 50, 10)
qt2 <- c(40, 40, 110, 100, 15)
qt3 <- c(50, 30, 140, 150, 10)
qt4 <- c(20, 20, 120, 50, 15)
myDF <- data.frame(shopID, sum, qt1, qt2, qt3, qt4)

#The ts() function converts a numeric vector into an R time series object 
ts1 <- ts(as.numeric((myDF[1,3:6])), frequency=4)
ts2 <- ts(as.numeric((myDF[2,3:6])), frequency=4)
ts3 <- ts(as.numeric((myDF[3,3:6])), frequency=4)
ts4 <- ts(as.numeric((myDF[4,3:6])), frequency=4)
ts5 <- ts(as.numeric((myDF[5,3:6])), frequency=4)

#Merge time series objects
tsm <- merge(a = as.zoo(ts1), b = as.zoo(ts2), c = as.zoo(ts3), d = as.zoo(ts4), e = as.zoo(ts5))

#Plotting the Time Series
plot.ts(tsm, plot.type = "single", lty = 1:5, xlab = "Time", ylab = "Sales")

代码没有优化，可以改进。更多关于时间序列分析的内容可以阅读here。希望这能提供一些方向。

【讨论】：