【发布时间】:2019-06-18 13:51:16
【问题描述】:
我的每月面板数据不平衡。有些国家缺少某些时间段,因此我的小组中没有这些时间段。我想添加这些句点并为它们分配一个NA 值。
我尝试了一个平衡面板的功能,但它的作用是消除与所有状态不匹配的所有观察结果。因此,如果没有阿拉巴马州在 02-2008 年的数据,它将消除所有州在 02-2008 年的观察结果。
balanced <- function(data, ID, TIME, VARS, required=c("all", "shared")) {
if(is.character(ID)) {
ID <- match(ID, names(data))
}
if(is.character(TIME)) {
TIME <- match(TIME, names(data))
if(missing(VARS)) {
VARS <- setdiff(1:ncol(data), c(ID,TIME))
} else if (is.character(VARS)) {
VARS <- match(VARS, names(data))
}
required <- match.arg(required)
idf <- do.call(interaction, c(data[, ID, drop=FALSE], drop=TRUE))
timef <- do.call(interaction, c(data[, TIME, drop=FALSE], drop=TRUE))
complete <- complete.cases(data[, VARS])
tbl <- table(idf[complete], timef[complete])
if (required == "all") {
keep <- which(rowSums(tbl == 1) == ncol(tbl))
idx <- as.numeric(idf) %in% keep
} else if (required == "shared") {
keep <- which(colSums(tbl == 1) == nrow(tbl))
idx <- as.numeric(timef) %in% keep
}
data[idx, ]
}
Balanced_panel <- balanced(milk_state, "STATE", "PERIOD", "VALUE", required = "all")
看起来是这样的:
STATE PERIOD VALUE
California 01-2018 900
California 02-2018 890
California 03-2018 780
California 05-2018 800
这就是我想要的样子:
STATE PERIOD VALUE
California 01-2018 900
California 02-2018 890
California 03-2018 780
California 04-2018 NA
California 05-2018 800
【问题讨论】:
-
?tidyr::complete。如果您分享一些示例输入,我们可以为您提供更多帮助。 (使用dput(),例如dput(droplevels(milk_state[1:20, ]))来共享复制/可粘贴的示例数据。 -
添加仅由 NA 组成的行有什么意义?你打算做什么?
-
在这里我粘贴我从 dput() 获得的内容: structure(list(State = c("ARIZONA", "CALIFORNIA", "COLORADO", "FLORIDA", "IDAHO", "ILLINOIS) ", "印第安纳", "爱荷华", "堪萨斯", "密歇根"), 月份 = c("01 2018", "01 2018", "01 2018", "01 2018", "01 2018", "01 2018”, “01 2018”, “01 2018”, “01 2018”, “01 2018”), 值 = c(2165, 2005, 2220, 1775, 2055, 1800, 1945, 2015, 1985, 2190)), row.names = c(NA, -10L), class= c("tbl_df", "tbl", "data.frame"))
-
嗯,那个特定的样本数据是完整的,但我相信
tidyr::complete(milk_state, STATE, PERIOD)会起作用。
标签: r panel missing-data balance