【问题标题】:R variable types changes after transposing data frame转置数据帧后R变量类型发生变化
【发布时间】:2017-02-15 19:48:57
【问题描述】:

我一直对R中的变量类型感到困惑,现在转置一个数据框后遇到了一个问题。

例如,我使用table() 来获取某个向量中每个因子的计数:

data(iris)

count <- as.data.frame(table(iris$Species))
typeof(count$Var1)
# [1] "integer"

typeof(count$Freq)
# [1] "integer"

我的第一个问题是,为什么count$Var1 是“整数”?字符串也可以是“整数”吗?但这没关系,因为我可以通过count$Var1 &lt;- as.character(count$Var1)改变类型,然后typeof(count$Var1)变成“字符”。

现在我将这个数据帧转置为transposed_count &lt;- as.data.frame(t(count))。但我很困惑,因为:

typeof(transposed_count[1,])
[1] "list"

typeof(transposed_count[2,])
[1] "list"

transposed_count[2,]
     V1 V2 V3
Freq 50 50 50

为了后续使用,我需要 transposed_count[2,] 是一个数字向量,例如:

transposed_count[2,]
[1] 50 50 50

我该怎么做?又为什么在t()之后变成了“名单”?对不起,如果这是一个愚蠢的问题。谢谢!

【问题讨论】:

    标签: r data-structures transpose variable-types


    【解决方案1】:

    我的第一个问题是,为什么count$Var1 是“整数”?

    因为因子是整数存储类型

    > is.factor(count$Var1)
    [1] TRUE
    

    iris data.frame 中的“字符串”在 R 中很常见,被存储为因子。

    为什么在t()之后变成了“名单”?

    当您转置时,您会得到一个矩阵,并且每个条目的矩阵必须具有相同的存储类。您实际上首先会得到一个字符矩阵,因为整数值将被强制转换。然后,当您随后更改为 data.frame 时,这些字符将默认强制转换为(新)因子。

    > t(count)
         [,1]     [,2]         [,3]       
    Var1 "setosa" "versicolor" "virginica"
    Freq "50"     "50"         "50" 
    
    > transposed_count <- as.data.frame(t(count))
    
    > transposed_count[2,1]
    Freq 
      50 
    Levels: 50 setosa
    > as.numeric(transposed_count[2,1])
    [1] 1
    

    所以现在的计数为 50 是一个数值为 1 的因子!不是你想要的。

    至于为什么typeof(transposed_count[1,])是一个列表?作为 data.frame 的水平切片,它实际上是一个 data.frame。

    > is.data.frame(transposed_count[2,])
    [1] TRUE
    

    data.frames 只是包含类信息的列表。

    但是我怎样才能得到一个“转置”的数据帧呢?

    听起来你可能想要

    > library(reshape2)
    > dcast(melt(count), variable~Var1)
    Using Var1 as id variables
      variable setosa versicolor virginica
    1     Freq     50         50        50
    

    读完所有样本后,我将重新绑定所有数据帧

    您必须确保列正确排列。根据即将进行的分析,rbind 可能更自然,因为另一列指示来源。

    > count2 <- count
    > count$source = "file1"
    > count2$source = "file2"
    > (mcount <- rbind(count,count2))
            Var1 Freq source
    1     setosa   50  file1
    2 versicolor   50  file1
    3  virginica   50  file1
    4     setosa   50  file2
    5 versicolor   50  file2
    6  virginica   50  file2
    

    如果您以后确实想重塑形状,现在不必担心对齐问题

    > dcast(melt(mcount), ...~Var1)
    Using Var1, source as id variables
      source variable setosa versicolor virginica
    1  file1     Freq     50         50        50
    2  file2     Freq     50         50        50
    

    【讨论】:

    • 感谢您的解释!我变得更清楚了。但是我怎样才能得到一个“转置”的数据帧呢?
    • 我正在读取一堆文件,每个文件作为每个样本。最后我需要一个数据框,其中行是样本,列是每个文件/样本中每个元素的计数。所以在我读完所有样本后,我将 rbind 所有数据框。这就是为什么我需要它被转置。我将把“Var1”作为最终数据框的列名。
    • 正如@Roman Luštrik 推断的那样,您可能正在从reshape2 库中寻找类似dcast(melt(count), ...~Var1) 的东西。但是,根据您的分析,更自然的形状可能是rbind 原始格式的数据,添加带有文件/样本指示符的另一列。这会给你一个“堆叠”的格式。
    • 非常感谢!现在我知道有区别了。当我搜索转置数据框时, t() 是我得到的唯一答案。但实际上我不应该将它用于我的目的。
    【解决方案2】:

    typeof 会告诉你 R 如何在内部存储数据。对于因子,这是整数。 Var1 是一个因素,明白吗?

    > class(count$Var1)
    [1] "factor"
    

    transposed_counts 在这种情况下毫无意义。通过转置你破坏了 data.frame 逻辑。转置通常对矩阵有意义。如果你想“重排”一个 data.frame,你可以使用类似 reshape 或其任何亲戚的东西。

    【讨论】:

    • 感谢您的回答!
    【解决方案3】:

    如果您在转置之前将 Var1 中的物种名称转换为行名称,则可以避免将所有内容转置为相同数据类型的问题。

    data(iris)
    count <- as.data.frame(table(iris$Species))
    row.names(count) <- count$Var1
    count$Var1 <- NULL
    transposed_count <- as.data.frame(t(count))
    as.numeric(transposed_count[1,])
    # [1] 50 50 50
    

    【讨论】:

      猜你喜欢
      • 2019-07-18
      • 2020-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-22
      • 2013-05-09
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多