【问题标题】:Linear model fitting iteratively and calculate the Variable Importance with varImp() for all predictors over the iterations线性模型迭代拟合并使用 varImp() 计算迭代中所有预测变量的变量重要性
【发布时间】:2021-05-24 19:01:43
【问题描述】:

我想迭代地拟合一个线性模型 (= LM),并在每次迭代后使用 caret::varImp() 函数计算各个变量/预测变量的变量重要性。我的数据表和天数如下所示(dt.train 的列数总是不同,days 变量也一样):

d <- 50  
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
                       "DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
                       "Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3),  check.names = FALSE)

我也已经有一个函数可以每隔d 天计算一次(这里是d&lt;-50):

varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1-date, data = data)
  
  terms <- attr(lmModel$terms , "term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- data[, .(date, imp = t(varimp))]
} 
## Get variable importance: ##
dt.importance <- dt.train[, varImportance(.SD), by = seq_len(nrow(dt.train)) %/% d]

现在我想要一个循环来为我构建迭代,如下所示:

1.运行: 模型拟合“2020-01-01”到“2020-02-20”(这里正好是 50 天)的数据

2。运行: 用“2020-01-02”到“2020-02-21”的数据进行模型拟合

3.运行: 用“2020-01-03”到“2020-02-22”的数据进行模型拟合

... 等等

上次运行:模型拟合“2020-11-11”到“2020-12-31”的数据


然后应始终将变量重要性保存在新表中以匹配模型拟合,即:

变量的重要性1。运行:应声明为“2020-01-01”,

变量的重要性2。运行:应声明为“2020-01-02”,

...等等

Last Run: 的变量重要性应声明为“2020-11-11”。

这怎么可能?

【问题讨论】:

    标签: r loops iteration linear-regression lm


    【解决方案1】:

    您可以使用 zoo 包中的 rollapply

    重要的论点是:

    • width设置窗口
    • by.column = FALSE 将所有列一起传递给模型
    • aligned = 'left' 使滚动窗口从第一个数据点开始

    由于rollapply 作用于矩阵,它将datesnumeric 混合转换为charactersee,因此date 字段必须单独处理。

    library(data.table)
    library(caret)
    library(zoo)
    
    d <- 50
    ## Create random data table: ##
    dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
                           "DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
                           "Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3),  check.names = FALSE)
    
    varImportance <- function(data){
      ## Model fitting: ##
      lmModel <- stats::lm(DE ~ .-1, data = data.table(data))
      terms <- attr(lmModel$terms , "term.labels")
      varimp <- caret::varImp(lmModel)
      importance <- t(varimp)
    }
    
    # Removing date because rollapply needs a unique type
    Importance <- as.data.frame(zoo::rollapply(dt.train[,!"date"], 
                                               FUN = varImportance,
                                               width = d,
                                               by.column=FALSE,
                                               align='left')
                                )
    
    # Adding back date
    Importance <- cbind(dt.train[1:nrow(Importance),.(date)],Importance)
    
    Importance
    #>            date     Wind     Solar   Nuclear    ResLoad
    #>   1: 2020-01-01 2.523219 1.0253985 0.1676970 0.80379590
    #>   2: 2020-01-02 2.535376 1.3231915 0.3292608 0.78803748
    #>   3: 2020-01-03 2.636790 1.5249620 0.4857825 0.85169700
    #>   4: 2020-01-04 3.158113 1.1318521 0.1869724 0.24190772
    #>   5: 2020-01-05 3.326954 1.0991870 0.2341736 0.09327451
    #>  ---                                                   
    #> 313: 2020-11-08 4.552528 0.8662639 0.8824743 0.22454327
    #> 314: 2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
    #> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
    #> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
    #> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800
    

    此解决方案比您已经使用的函数花费更多时间,因为它的计算量是块版本的 50 倍。也无法使用 data.table::frollapply,AFAIK 只能输出一维向量。

    【讨论】:

    • 嗨!不幸的是,当我将它应用于 GAM 时,它并没有像希望的那样工作,对于 MARS 模型也是如此。
    • 和我们之前的讨论一样,每个模型都有其约束,确保数据符合这些约束可能很乏味。但是,我认为上述方法不能与其他模型类型一起使用没有根本原因。
    猜你喜欢
    • 1970-01-01
    • 2021-05-20
    • 2016-11-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-09
    • 2014-03-31
    • 1970-01-01
    相关资源
    最近更新 更多