【问题标题】:Remove all factorial variables with more than 50% NA [duplicate]删除所有超过 50% NA 的阶乘变量 [重复]
【发布时间】:2017-07-15 09:48:30
【问题描述】:

我有一个带有标题的 CSV 文件。有些特征(列)是阶乘的,有些是数值的。

对于阶乘变量,我有很多带有很多 NA 的列,例如:

Num1 Fact1 Num2 Fact2 Fact3
9889  Bla   23   BBxv  NA
NA    NA    456  BBxz  NA
NA   Abcd   3    BBxx  Jet
NA    NA    100  BBxy  NA
NA    NA    NA   NA    NA

我想删除其中 NA 超过 50% 的所有 Factorial 列。

例如生成的数据框应该是:

Num1 Num2 Fact2
9889  23   BBxv
NA    456  BBxz
NA    3    BBxx
NA    100  BBxy
NA    NA   NA  

此外,有没有办法在 SAME 过程中也删除其中 NA 超过 50% 的数字列?

例如清理后,生成的数据框将是仅包含 Num2Fact2 列的数据框。

【问题讨论】:

  • 你试过了吗?
  • dff[colMeans(is.na(dff)) <= 0.5];其中dff 是您的data.frame。

标签: r csv dataframe data-cleaning


【解决方案1】:

试试:

dff[colMeans(is.na(dff)) <= 0.5]

应该得到:

 Num2 Fact2
 23   BBxv 
 456  BBxz 
 3    BBxx 
 100  BBxy 
 NA   <NA>

编辑:

如果您希望在同一进程中删除超过 50% 的零列,请尝试以下操作:

dff[colMeans(is.na(dff)) <= 0.5 & colMeans((dff == 0), na.rm = T) <= 0.5]

我希望这会有所帮助。

【讨论】:

  • 确实有帮助。谢谢
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-10-21
  • 1970-01-01
  • 2016-04-06
  • 2017-05-27
  • 1970-01-01
相关资源
最近更新 更多