来自向量列表的数据框答案

【问题标题】：data frame from a list of vectors来自向量列表的数据框
【发布时间】：2020-08-03 11:09:32
【问题描述】：

我有 4 个不同长度的向量 (d1,d2,d3,d4)，我从中创建这样的数据框

df <- data.frame(
  x = c(
    seq_along(d1),
    seq_along(d2),
    seq_along(d3),
    seq_along(d4)
  ),
  y = c(
    d1,
    d2,
    d3,
    d4
  ),
  id = c(
    rep("d1", times = length(d1)), 
    rep("d2", times = length(d2)),
    rep("d3", times = length(d3)),
    rep("d4", times = length(d4))
  ))

添加一个新向量意味着在 3 个不同的地方添加它，这是我想要避免的。理想情况下，我想将d1,d2,d3,d4 传递给一个函数，然后返回数据框。

第一步似乎是将向量包装成一个列表并命名它们。

l <- list(d1,d2,d3,d4)
names(l) <- c("d1","d2","d3","d4")

但我正在努力处理可能应该与此类似的第二部分（伪代码）

df <- data.frame(
  x = flatten(map(l, function(a) seq_along(a))),
  y = flatten(l),
  id = flatten(map(l, function(a) rep(a.name,times=length(a))))
)

从列表中构造数据框的正确方法是什么？或者有更好的方法吗？

更新：出于演示目的，可以想象 d1..d4 是

d1 <- pnorm(seq(-2, 2, 0.05))-3
d2 <- pnorm(seq(-3, 3, 0.10))
d3 <- pnorm(seq(-1, 2, 0.05))-4
d4 <- pnorm(seq(-4, 3, 0.15))

【问题讨论】：

能否也分享一个向量样本？他们都是蹩脚的长度吗？
@Sotos 它们的长度不同。我添加了更多细节。

标签： r dataframe

【解决方案1】：

您可以定义一个接受任意数量向量的函数：

build_df <- function(...)
{
  vec_list <- list(...)
  df <- data.frame(x = do.call("c", sapply(vec_list, seq_along)),
                   y = do.call("c", vec_list),
                   name = do.call("c", sapply(seq_along(vec_list), 
                                              function(i) rep(names(vec_list)[i], 
                                                          length(vec_list[[i]]))))
             )
  rownames(df) <- seq(nrow(df))
  df
}

build_df(d1 = 1:3, d2 = 6:9, bananas = 4:6)
#>    x y    name
#> 1  1 1      d1
#> 2  2 2      d1
#> 3  3 3      d1
#> 4  1 6      d2
#> 5  2 7      d2
#> 6  3 8      d2
#> 7  4 9      d2
#> 8  1 4 bananas
#> 9  2 5 bananas
#> 10 3 6 bananas

^{由reprex package (v0.3.0) 于 2020 年 8 月 3 日创建}

【讨论】：

这个答案已经很不错了。谢谢！只是"d"+i 并不是那么理想。我希望能够单独命名它们。
...或者将他们的名字作为变量之一 - 但我怀疑这是可能的。
@tcurdt 查看我的更新。是可以使它成为变量的名称，但是当传递表达式而不是变量名称时可能会出现问题

【解决方案2】：

您的y 可以与unlist 轻松组装。我需要一个for 循环来生成x 和id。这个功能怎么样？

d1 <- pnorm(seq(-2, 2, 0.05))-3
d2 <- pnorm(seq(-3, 3, 0.10))
d3 <- pnorm(seq(-1, 2, 0.05))-4
d4 <- pnorm(seq(-4, 3, 0.15))
my_list <- list(d1 = d1, d2 = d2, d3 = d3, d4 = d4)
 
build_df <- function(list) {
  names <- names(list)
  x <- integer()
  id <- character()
  for(i in 1:length(list)) {
    x <- c(x, seq_along(list[[i]]))
    id <- c(id, rep(names[i], length(list[[i]])))
  }
  y <- unname(unlist(list))
  df <- data.frame(x = x, y = y, id = id)
  return(df)
}
 
df <- build_df(my_list)
head(df)
  x         y id
1 1 -2.977250 d1
2 2 -2.974412 d1
3 3 -2.971283 d1
4 4 -2.967843 d1
5 5 -2.964070 d1
6 6 -2.959941 d1

【讨论】：

【解决方案3】：

我们可以使用mget

library(dplyr)
library(tibble)
library(tidyr)
library(data.table)
mget(paste0("d", 1:4)) %>% 
   enframe(name = 'id', value = 'y') %>% 
   unnest(c(y)) %>% 
   mutate(x = rowid(id))

【讨论】：