【发布时间】:2020-05-22 02:53:53
【问题描述】:
我遇到了一个奇怪的问题,希望有人能帮忙。 我在 R 中有一个具有 8 个类(级别)的事实变量,如下所示:
> levels(data_testing$land_cover)
[1] "COMMERCIAL" "GOVERNMENT AND INSTITUTIONAL" "NOT AVAILABLE"
[4] "OPEN AREA" "PARKS AND RECREATIONAL" "RESIDENTIAL"
[7] "RESOURCE AND INDUSTRIAL" NA
如您所见,NA 是变量“land_cover.”的级别之一,级别的频率如下:
COMMERCIAL GOVERNMENT AND INSTITUTIONAL NOT AVAILABLE
236 150 469
OPEN AREA PARKS AND RECREATIONAL RESIDENTIAL
908 108 6034
RESOURCE AND INDUSTRIAL <NA>
1584 2505
所以它说有 2505 个 NA 值。但是,当我计算这样一个变量的总缺失值时,它显示没有:
sum (is.na(data_testing$land_cover))
[1] 0
我的问题是,如果有人知道我如何重命名,重估这个NA?我尝试将NA 替换或重命名为其他名称,但NAs 无法识别为级别。
我的最终目标是将所有NA 值添加到“NOT AVAILABLE”类中并摆脱NA 类。但是,显然,在替换或重估函数中,NA 不能被识别为一个类。
我真的很感谢您提前提供的帮助。
干杯-
【问题讨论】:
-
可以加
dput(head(data_testing$land_cover))吗?
标签: r rename missing-data data-cleaning categorical-data