【发布时间】:2018-07-13 15:39:30
【问题描述】:
对于一个项目,我收到了大量机密的患者级别数据,我需要对其进行拟合分布,以便在模拟模型中使用它。我正在使用 R。
问题是我需要拟合分布以获得至少 288 个独立分布(至少 48 个 6 个变量的子集)的形状/速率数据。该过程在变量之间会略有不同(取决于该变量的分布方式),但我希望能够为每个变量设置一个函数或循环,并为我定义的每个子集生成形状和速率数据。
这方面的一个例子:我需要找到患者子集的住院时间数据。有 48 个患者亚组。我目前这样做的方法是手动过滤数据,然后将它们提取到向量中,然后使用fitdist 将数据拟合到向量中。
即对于伽马分布的变量:
vector1 <- los_data %>%
filter(group == 1, setting == 1, diagnosis == 1)
fitdist(vector1, "gamma")
我对数据科学和数据处理还很陌生,而且我知道一定有比手工更简单的方法来做到这一点!我假设与矩阵有关,但我完全不知道如何最好地进行。
【问题讨论】:
-
可能您需要一个分组方法
los_data %>% group_by(group, setting, diagnosis) %>% summarise(yourfunc(columns))请展示一个可重复的小示例和预期输出 -
fitdist 接受一个数字向量,并且您的链正在输出一个数据框(等长向量列表)。
标签: r subset simulation distribution purrr