【发布时间】:2016-09-14 20:40:19
【问题描述】:
我正在尝试引导一些模型拟合,然后计算统计数据,而不必每次都重新运行模型。如果我在第一个 do() 中计算 r2,我可以做到这一点,但我想知道如何访问数据。
library(dplyr)
library(tidyr)
library(modelr)
library(purrr)
allmdls <-
mtcars %>%
group_by(cyl) %>%
do({
datsplit=crossv_mc(.,10)
mdls=list(map(datsplit$train, ~glm(hp~disp,data=.,family=gaussian(link='identity'))))
data_frame(datsplit=list(datsplit),mdls)
})
现在是这样的:
allmdls %>%
by_slice(dmap,.f=map2_dbl(.$mdls,.$datsplit$test,rsquare))
但我明白了
错误:
.y不是向量(NULL)
或
allmdls %>%
group_by(cyl) %>%
do({
map2_df(.x=.$mdls, .y=.$datsplit, .f=map2_dbl(.x=.x,.y=.y$test,.f=rsquare))
})
map2_dbl(.x = .x, .y = .y$test, .f = rsquare) 中的错误:对象 '.x' 未找到
我似乎无法正确使用语法。
帮助? 谢谢
编辑: 感谢@aosmith 的评论,我创建了一个更简单的解决方案:
mtcars %>%
group_by(cyl) %>%
do({
datplit=crossv_mc(.,10) %>%
mutate(mdls=map(train, ~glm(hp~disp,data=.)),
r2=map2_dbl(mdls,test,rsquare)
pctmae=map2_dbl(mdls,test,function(model,data) {mae(model,data)/mean(model$model$hp,na.rm=T)*100})
)
})
【问题讨论】:
-
这些列表似乎真的很难使用。您可以使用嵌套的
map2s 执行mutate(allmdls, rsq = map2(mdls, map(datsplit, "test"), ~map2(.x, .y, rsquare))),这样您就可以处理最里面的列表。也许您也可以使用at_depth做一些事情,但不确定何时使用这样的多个列表。 -
@aosmith 我发现了你的解决方案的一个变体,它更简单,而且大部分都有效,所以感谢你的灵感。我同意列表中的列表并不理想。你怎么知道引号中的“测试”发生了什么?
-
酷,你应该把它作为一个解决方案。
map(datsplit, "test")它从datsplit提取测试列作为美元符号表示法和提取括号不起作用。map的文档对.f有很好的解释。 -
啊,我明白了。我正在考虑将 .f 作为一个函数,但它也可以是一个字符或整数向量来提取列@aosmith 如果您发表评论,我会接受它。我也会添加我的解决方案
标签: r dplyr statistics-bootstrap purrr