【问题标题】:R studio creating "Extra" factor on categorial variablesRstudio在分类变量上创建“额外”因子
【发布时间】:2021-02-23 13:52:56
【问题描述】:

我对 R 还是很陌生,所以请耐心等待。当我将数据集加载到 R Studio 中时,它会在具有“高”、“中”和“低”值的分类变量上创建一个具有 4 个级别的因子。这不应该只是一个具有 3 个级别的因子吗? 因此,当我的数据集中的变量(向量)budget.level 具有以下值时:

Budget.level <- c("High","Medium","low")

levels(Budget.level)

我得到的输出是这样的

为什么我会得到这个额外的空关卡? 如果您需要更多信息,请告诉我。

【问题讨论】:

  • 您确定没有任何缺失/NULL 值吗? unique(mvc_new$Budget.level) 的输出是什么?
  • 在您分享的屏幕截图中,有 4 个级别:“”、“高”、“低”、“中”。该空字符串被视为一个级别。

标签: r statistics


【解决方案1】:

您需要确保空字符串变成 NA。这完全取决于您用于加载数据的函数或方法。

read.table 使用 na.strings = "NA" 例如。你可以改为使用""

read_xlsx 使用 na = "",这将作为您的默认设置。

您也可以事后手动清理:

mvc_new$Budget.level[ mvc_new$Budget.level %in% "" ] <- NA
mvc_new$Budget.level <- factor( mvc_new$Budget.level )

【讨论】:

  • 谢谢! Na.strings = "" 修复了它。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-05-18
  • 1970-01-01
  • 2013-09-08
  • 1970-01-01
  • 2011-02-05
  • 1970-01-01
相关资源
最近更新 更多