【问题标题】:dplyr: Create a new column with a complex operation using mutate()dplyr:使用 mutate() 创建具有复杂操作的新列
【发布时间】:2020-08-14 19:23:07
【问题描述】:

我想使用原始 (df) 创建一个新数据框 (new.df),但使用 dplyr 包中的 mutate 函数的复杂操作创建一个新列 (Age) .我的步骤是:

# Artificial dataframe
IDtest<-c(1,1,1,1,1,1,2,2,2,3,3,3,3)
Class<-c(1,1,2,2,2,3,1,1,2,1,2,2,3)
Day<-c(0,47,76,100,150,173,0,47,76,0,47,76,100)
Area<-c(0.45,0.85,1.50,1.53,1.98,5.2,
         0.36,0.58,1.2,
         0.85,1.36,2.26,3.59)
df<-data.frame(cbind(IDtest, Class, Day, Area))
str(df)

#Split each IDtest
df[df[,1]==1,]
#  IDtest Class Day Area
#1      1     1   0 0.45
#2      1     1  47 0.85
#3      1     2  76 1.50
#4      1     2 100 1.53
#5      1     2 150 1.98
#6      1     3 173 5.20

每个IDtest内:

  1. 每个Class 中的最后一个Area 减去一个因子(如果面积 25 = 25);和
  2. 比 1) 除以最后一个和第一个 Area 之间的减法运算并在每个 Class 内除以 Day
  3. 比 1) 和 2) 在每个 Class 中求和 Day 减去最后一个 Day。最后总和除以 365 并创建一个新列 Age
#For Class 1
(0.85-0)/((0.85-0.45)/47) + (47 - 0) 

#For Class 2
(1.98-1)/((1.98-0.85)/150) + (157 - 47)

#For Class 3
(5.20-3)/((5.2-1.98)/173) + (173 - 150)

#Final 
Age<-((0.85-0)/((0.85-0.45)/47) + (47 - 0) +
(1.98-1)/((1.98-0.85)/150) + (157 - 47) + 
(5.20-3)/((5.2-1.98)/173) + (173 - 150))/365
Age
#[1] 1.44702

# Desirable output
new.df
#  IDtest Class Day Area Age
#1      1     1   0 0.45 1.44702
#2      1     1  47 0.85 1.44702
#3      1     2  76 1.50 1.44702
#4      1     2 100 1.53 1.44702
#5      1     2 150 1.98 1.44702
#6      1     3 173 5.20 1.44702

请问有什么想法吗?

【问题讨论】:

    标签: r dplyr


    【解决方案1】:

    这很棘手,因此我将所有步骤分开进行,以便您更轻松地发现任何可能的误解。 你的这行可能有错误吗?

    (1.98-1)/((1.98-0.85)/150) + (157 - 47) # 157? wouldn't it be 150?
    

    也就是说,我第 1 课的结果和你的一样,但是请注意第 2 课和第 3 课,因为我不确定是否正确理解了第二步和第三步,我不确定你的使用“last”(即 Class 或“previous”Class 中的“last”)。

    在第二步中,我在 Class 中使用“last”,在第三步中,我使用 for 循环来使用“the previous”。我认为您可以添加这个想法

    df2 <- df %>% 
      group_by(IDtest, Class) %>%
        mutate(
          DayOrder = row_number() 
        )
    
    df2 <- df2 %>%
      mutate(step1a = Area[max(DayOrder)], # I divide step1 in several steps to make it clearer
         minus =  # what you want to substract
           case_when(
             step1a < 1 ~ 0,
             step1a < 2.9 ~ 1,
             step1a < 8.9 ~ 3,
             step1a < 24.9 ~ 9,
             step1a > 25 ~ 25
           ),
         step1done = step1a - minus, 
         step2a = Area[max(DayOrder)] - Area[min(DayOrder)], # "Last" inside the same Class (as it is inside mutate, which is under group_by)
         step2b = Day[max(DayOrder)],
         step2done = step2a / step2b,
         step1by2 = step1done / step2done
         )
    
    
    df2$step3 <- NA 
    for (i in 1:max(df2$Class)){
      if(i == 1){
         df2$step3[Class == i] <- max(df2$Day[df2$Class == i]) - 0 # quite silly
         }else{
         df2$step3[Class == i] <- max(df2$Day[df2$Class == i]) - max(df2$Day[df2$Class == i - 1]) # "Last" as the "previous" Class, not inside the same Class
     }}
    
    
    df2 %>%
      mutate(
        step3done = step1by2 + step3,
        Age = step3done / 365 # Do you want "age" as a unique value?? not a value for each person? This case I would do this outside mutate and add as a new column
      )
    

    如果我误解了你,我希望你至少能接受一些想法!

    【讨论】:

    • Miguel,你的代码帮助很大!!!我现在在 max(df2$Day[df2$Class == i - 1] 中遇到了一个小问题,因为我的数据集中的类必须有时间非连续增加。类将值 1 更改为 4。在这种情况下,您的代码给了我 -Inf 值,因为必须使用最后一个 Class 值 (1) 而不是不存在的 3。您在这里看到任何简单的修改吗?
    • 我想我并没有完全理解你。所以“班级”在某种程度上是一群人,而不是数字,它可能是“A”、“B”、“C”……但你也需要考虑“最后一天”(上一个班级)。如果您的“类”类别很少,您可以在 for 循环中使用特定的 if(){}else{}。例如,如果前一个 Class 到 4 是 2,你可以这样做
    • 如果前一个 Class 到 4 是 2,你可以这样做: if(i == 4){... - max(df2$Day[df2$Class == 2])}或者没有 for 循环: df2$step3[Class == 4]
    • 感谢米格尔!!帮助很大。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-06-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-18
    • 2018-10-03
    • 1970-01-01
    相关资源
    最近更新 更多