【问题标题】:R - adding values for one column based on a function using another columnR - 基于使用另一列的函数为一列添加值
【发布时间】:2020-03-10 15:48:04
【问题描述】:

我有一个看起来像这样的数据集

头部(数据集)

Distance   Lag time  Kurtosis
7.406100   10
144.1700   1
77.31800   1
81.15400   1
4.249167   6

我想向 kurtosis 列添加值。要计算峰度,我需要按延迟时间对距离进行分组(即,延迟时间 1 的所有距离都会给我一个峰度值等)。 为了得到峰度,我通常使用包“psych”和函数 describe() 有没有我可以添加的循环来做到这一点?

【问题讨论】:

  • psych::describe 的输出是一个数据框,而不是单个变量。它包含一个名为“kurtosis”的列 - 这是您想要的,还是您想要整个数据框?
  • @Greg 没错,我只需要峰度列。

标签: r loops kurtosis


【解决方案1】:

由于describe 生成一个数据框作为输出,而您想要的只是一列(也称为峰度),因此您需要对describe 输出进行子集化

library(dplyr)
library(psych)

df %>% 
  group_by(Lag_Time) %>% 
  mutate(Kurtosis = describe(Distance)[1,"kurtosis"])

  Distance Lag_Time Kurtosis
     <dbl>    <dbl>    <dbl>
1     7.41       10    NA   
2   144.          1    -2.33
3    77.3         1    -2.33
4    81.2         1    -2.33
5     4.25        6    NA   

【讨论】:

  • 感谢您的帮助。有效。但现在我有一个后续问题:我能做些什么来包括“直到”特定日期的滞后时间。例如,对于组滞后 = 5,我想要从 1 到 5 的距离值,依此类推
  • 您可能可以使用filter,但您应该创建一个新问题,包括一个可重现的示例(这里不清楚您所说的天数是什么意思,因为没有天数列)
【解决方案2】:

你应该可以使用dplyr来做到这一点

library(dplyr)
library(magrittr)
dataset <- dataset %>%
           dplyr::group_by('Lag time') %>%
           dplyr::mutate(Kurtosis = describe(Distance)$kurtosis)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-07-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多