R在两个不同级别中分解相同的分类变量答案

【问题标题】：R factoring the same categorical variable in two different levelsR在两个不同级别中分解相同的分类变量
【发布时间】：2019-11-26 20:16:14
【问题描述】：

我似乎在使用分类变量时遇到了问题。我在一个非常小的数据集中有相同的词，比如“a”。然而，R 选择制作两个级别的“a”，每个级别都有自己独特的观察次数。如果我使用摘要（数据）。例如，我得到（对于 10 个独特的观察和分类变量 a、b、c）

summary(data)
a:2
a:4
b:2
c:2

我该如何解决这个问题？我尝试了 as.factor(data$categorical_variable) 并转换为 Excel 并返回到 csv。谢谢。

【问题讨论】：

可以检查尾随/前导空格，summary(trimws(data))
我们无法知道您提供的信息有什么问题。请通过键入dput(head(data, 20)) 并将结果粘贴到您的问题中来提供您的数据样本。另外，请阅读How to ask
这似乎工作 akrun，非常感谢！

标签： r

【解决方案1】：

很高兴@akrun 能够提供帮助。将来，如果您要导入其他数据集，您可能会考虑在导入数据时尝试以下包和函数来删除空格。

我喜欢使用包readr（如果您最终使用tidyverse 库，则会自动导入）及其函数read_csv，它会自动去除前导和尾随空格，这样您就不必这样做了。它也不假定您的字符字段是因素，我更喜欢默认行为而不是基本 R 的 read.csv。

如果您要导入 excel 文件，您可以使用库 readxl 及其函数 read_excel，该函数还会去除前导和尾随空格。

祝你好运！

【讨论】：