【问题标题】:Symmetric percent change between data frames in RR中数据帧之间的对称百分比变化
【发布时间】:2021-01-24 23:21:04
【问题描述】:

我有两个数据框。计算从 t1 到 t2 的百分比变化很容易,如下所示:

t1 <- data.frame("gene1" = c(1,5,10), "gene2" = c(1,1,1), "gene3" = c(5,5,20))
row.names(t1) <- c("patient1", "patient2", "patient3")
t2 <- data.frame("gene1" = c(0.5,5,20), "gene2" = c(2,4,8), "gene3" = c(2.5,20,5))
row.names(t2) <- c("patient1", "patient2", "patient3")

t3 <- (t2-t1)/t1 *100

t3
#>             gene1      gene2      gene3
#> patient1      -50        100        -50
#> patient2        0        300        300
#> patient3      100        700        -75

但是如果我想做对称百分比变化,这样从 20 到 5 的值变化不会是 -75,而是 -300。我试过这个:

t3 <- ifelse(t2 > t1, ((t2-t1)/t1) * 100, ((t2-t1)/t2) * 100)

但这给了我一些奇怪的 3x9 列表。

原则上使用 ifelse 应该可以。如果我降低复杂性,那么它工作得很好

t3 <- ifelse(t2 > t1, "a", "b")
t3
#>             gene1      gene2      gene3
#> patient1        b          a          b
#> patient2        b          a          a
#> patient3        a          a          b

理想情况下我的输出是:

t3
#>             gene1      gene2      gene3
#> patient1     -100       100        -100
#> patient2        0       300         300
#> patient3      100       700        -300

【问题讨论】:

  • 要明确一点:-100t3 中的 1、1)表示该值减少了后来值的 100%(从 1 减少到 0,5),对吗?
  • @David:是的,没错
  • 这是否意味着对于基因 1,患者 3,变化将是 50 (= (20 - 10) / 20 * 100),而不是您在预期输出中输入的 100?
  • @David:通过非对称计算,是的。但我有兴趣以对称方式做:ifelse(t2 > t1, ((t2-t1)/t1) * 100, ((t2-t1)/t2) * 100)

标签: r dataframe if-statement math percentage


【解决方案1】:

这个怎么样?

# recreate your data
t1 <- data.frame("gene1" = c(1,5,10), "gene2" = c(1,1,1), "gene3" = c(5,5,20))
row.names(t1) <- c("patient1", "patient2", "patient3")
t2 <- data.frame("gene1" = c(0.5,5,20), "gene2" = c(2,4,8), "gene3" = c(2.5,20,5))
row.names(t2) <- c("patient1", "patient2", "patient3")

t1
#>          gene1 gene2 gene3
#> patient1     1     1     5
#> patient2     5     1     5
#> patient3    10     1    20

t2
#>          gene1 gene2 gene3
#> patient1   0.5     2   2.5
#> patient2   5.0     4  20.0
#> patient3  20.0     8   5.0

# iterate over each column and compute the ifelse...
res <- lapply(seq_len(ncol(t1)), function(i) {
  x <- t2[, i]
  y <- t1[, i]
  diff <- x - y
  ifelse(x > y, diff / y, diff / x) * 100
})
# convert to data.frame and reset the names and rownames
res <- as.data.frame(res)
rownames(res) <- rownames(t1)
names(res) <- names(t1)
res
#>          gene1 gene2 gene3
#> patient1  -100   100  -100
#> patient2     0   300   300
#> patient3   100   700  -300

reprex package (v0.3.0) 于 2020 年 10 月 14 日创建

编辑

更好,可能更快:

t3 <- (t2 - t1) / pmin(t1, t2) * 100
t3
#>          gene1 gene2 gene3
#> patient1  -100   100  -100
#> patient2     0   300   300
#> patient3   100   700  -300

注意pmin,类似于ifelse,将min函数元素明智地应用于其输入元素的每次迭代,因此pmin(t1, t2)返回每个位置的最小值的data.frame,节省了我们ifelse 语句。

【讨论】:

  • 是的!第二个答案非常简单。等待 24 小时后,您将获得赏金
  • 是的,解决方案真的很简单,但我也需要一个 for 循环和 lapply 解决方案才能找到它:D
  • 这超出了原帖的范围,但是你知道为什么 ifelse 语句的行为如此奇怪吗?它似乎在每个单元格上运行测试表达式,但输出整个列的结果......或者什么
  • 如果给定一个向量,ifelse 效果最好(你可以通过在控制台中输入ifelse 来获取它的代码),所以在内部,测试(t2 &gt; t1)被转换为一个向量。然后对于每个元素(总共 9 个元素),调用的 yes/no 部分在适当的位置进行评估,因此返回 9 个元素的列表。有意义吗?
猜你喜欢
  • 2021-10-19
  • 2013-01-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-02-04
相关资源
最近更新 更多