【发布时间】:2016-10-17 08:03:51
【问题描述】:
我正在尝试排除包含我选择的特定列的 NA 的子集的行。我有一个这种组织的调查数据的 CSV 电子表格,例如:
name idnum term type q2 q3
bob 0321 1 2 0 .
. . 3 1 5 3
ron . 2 4 2 1
. 2561 4 3 4 2
在创建 R 工作区时,我将其设置为 data <- read.csv(..., na.strings='.')。出于分析的目的,我随后按术语和类型创建了子集,例如 set13 <- subset(data, term=1 & type=2)。当我尝试进行 t 检验时,我注意到该函数抛出了任何 NA 实例,有效地将我的样本量减少了一半。
对于我的分析,我想排除缺少调查项目的回复,例如我的示例中的 Bob,缺少问题 3。但我仍然想在 name 或 @987654325 中包含具有一个或多个 NA 的行@ 列。所以,从本质上讲,我想按列选择哪些 NA 被省略。 (请记住,这只是一个示例 - 我的实际 CSV 大约有 1000 行,因此每个子集可能包含 100-150 行。)
我知道这可以使用数据框来完成,但我不确定如何将其合并到给定的子集格式中。有没有办法做到这一点?
【问题讨论】: