【发布时间】:2017-07-15 09:48:30
【问题描述】:
我有一个带有标题的 CSV 文件。有些特征(列)是阶乘的,有些是数值的。
对于阶乘变量,我有很多带有很多 NA 的列,例如:
Num1 Fact1 Num2 Fact2 Fact3
9889 Bla 23 BBxv NA
NA NA 456 BBxz NA
NA Abcd 3 BBxx Jet
NA NA 100 BBxy NA
NA NA NA NA NA
我想删除其中 NA 超过 50% 的所有 Factorial 列。
例如生成的数据框应该是:
Num1 Num2 Fact2
9889 23 BBxv
NA 456 BBxz
NA 3 BBxx
NA 100 BBxy
NA NA NA
此外,有没有办法在 SAME 过程中也删除其中 NA 超过 50% 的数字列?
例如清理后,生成的数据框将是仅包含 Num2 和 Fact2 列的数据框。
【问题讨论】:
-
你试过了吗?
-
dff[colMeans(is.na(dff)) <= 0.5];其中dff是您的data.frame。
标签: r csv dataframe data-cleaning