我们如何检查唯一 ID 的任意 2 个间隔是否重叠?
我有患者口服DM药物处方数据,即DPP4和SU,想了解患者是否同时服用药物(即同一患者内DPP4和SU是否存在重叠区间ID )。 样本数据: ID DRUG START END 1 1 DPP4 2020-01-01 2020-01-20 2 1 DPP4 2020-03-01 2020-04-01 3 1 SU 2020-03-15 2020-04-30 4... »
我有患者口服DM药物处方数据,即DPP4和SU,想了解患者是否同时服用药物(即同一患者内DPP4和SU是否存在重叠区间ID )。 样本数据: ID DRUG START END 1 1 DPP4 2020-01-01 2020-01-20 2 1 DPP4 2020-03-01 2020-04-01 3 1 SU 2020-03-15 2020-04-30 4... »
我有一些相当难看的数据需要整理,需要帮助!我的数据现在是什么样子的: countries <- c("Austria", "Belgium", "Croatia") df <- tibble("age" = c(28,42,19, 67), "1_recreate_1"=c(NA,15,NA,NA), "1_recreate_2"=c(NA,1... »
我正在编写有关使用 tidyr 包的漩涡课程的脚本,但我在使用 %>% 运算符时遇到了一些问题。我有一个名为 pass 的数据框,其中包含 4 名学生的姓名、班级编号和最终成绩。我想添加一个名为 status 的新列,并用一个表示“通过”的字符向量填充它。在此之前,我使用 select 从名为 students4 的数据框中获取一些列,并将其存储在名为成绩簿的数据框中 gradebook ... »
我正在尝试处理pivot_longer 中的names_pattern 参数,但我不确定我是否了解分组功能及其工作原理。我需要旋转以下数据框以匹配下面所需的输出。 df<-structure(list(Weighted_Ideology =0.514, Weighted_Ideology_se = 0.00, Unweighted_Ideology = 0.51, Unweighted_Id... »
我需要用给定列的不同行的非 NA 值替换每一行的 NA。 在 var2 列中,名称之间没有唯一值。即,可能有一个跨 id 共享的 var2 值。 name<- rep(c("yygy","gryh","glqy","abye"),4) var2<- c(101,102,102,104,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA) data.frame(... »
我的tibble 插入到最后。 我有一个包含不同类型列的数据框(它们是不同的重复)。前四列应保持原样; start_with()(我这样写是因为函数可能有用)“树冠”应该概括为mean,以及“understory”(写成“under”)和“tree diameter” -at-breast-height" (tdbh) – 包括na.rm = TRUE。我怎样才能做到这一点?我该如何总结这样的列?... »
当我有像这个虚拟示例这样的整洁数据时: structure(list(year = c(2017L, 2018L, 2019L, 2020L, 2017L, 2018L, 2019L, 2020L), figure = c("income", "income", "income", "income", "expenses", "expenses", "expenses", "expe... »
我使用代码形成了以下数据 test <- data.frame(dis = c(10,20,30,40),dur=c(30,40,60,90),method=c("car","car","Bicycle","Bicycle"),to_lon=c(-1.980,-1.5678,-1.324,-1.456),to_lat=c(55.3009,55.3416,55.1123,55.2234),f... »
我的数据如下所示: # A tibble: 6 x 4 name val time x1 <chr> <dbl> <date> <dbl> 1 C Farolillo 7 2016-04-20 51.5 2 C Farolillo 3 2016-04-21 56.3... »
开始学习 tidyr 并在使用 spread() 时遇到问题。 这是一个假的实验数据集: library(tidyr) df <- structure(list(mood = c(0.855, -0.103, 0.421, -0.222, 0.772, -0.027, -1.088, 0.923, -1.516, -1.503, -0.358, -0.357, -0.344, 0.294... »
我无法解决这个问题。 我有一个不完整的数据集(许多行和变量),其中一个因素指定所有其他变量是预先还是后期。我需要获取所有变量前后的汇总统计数据,仅包括前后值不为 NA 的行。 如果每个变量的集合分别不完整,我正在尝试找到一种方法用 NA 替换现有值。 以下是我想要实现的一个简单示例: df = data.frame( id = c(1,1,2,2), myfactor = as... »
我需要显示每个 Numa 节点在同一包裹上的内存和 CPU 使用情况,因此架构是可见的。像这样的: 这是我的代码: library(tidyr) library(ggplot2) numa.nodes <- tibble ( numa_name = c("numa_01","numa_01","numa_01","numa_01","numa_01","numa_01","numa_... »
我有一个如下数据框,并想根据事件的最大传播创建一个时间传播变量。 A<- c('1244', '1244', '1244', '1245', '1245', '1245', '1245', '1245', '1245', '1245') sequence<- c(1,1,0, 1,1,0,0,1,1,1) # 1= lived locally and 0 lived inte... »
我正在尝试将子集函数应用于具有来自另一个数据集的最小值和最大值的每一列。 最小可重现示例: df <- mtcars 两列的最小/最大限制: dfLimits <- data.frame(Names = c("hp","wt"), Min = c(160,1.6), Max = c(220,NA),stringsAsFactor... »
我正在尝试根据 3 列将我的数据拆分为 3 个部分,然后希望分散数据以进行进一步处理。但是,当我使用 2 列拆分时,代码有效。它不适用于 3 列。这是建立在How can I spread repeated measures of multiple variables into wide format? 的讨论之上的 这是我的数据: structure(list(Zone = c("East"... »
我有一个带有列索引的大型数据框,它重复分配给特定行活动的数值。我希望能够运行引用此索引列的计算并计算从包含该参考值的第一个日期作为单独列的天数以及单独列执行逻辑测试该值包含在单独列中匹配该列中该索引值的第一个值。我一直在使用 dplyr 并拥有以下脚本: test <- InsiderList3 %>% group_by(`Insider CIK`) %>% muta... »
我已经阅读了 4-5 个类似的问题,但他们的案例不同,我不知道如何将我阅读的内容应用到我的案例中。 我有一个(公共)数据框,其中最后一列是一个列表: 点击放大镜显示如下结构: 当我unnest() 时,我会丢失度量名称(即visits、hits 等): 如何在保留指标名称的同时展平该列表? 样本数据: structure(list(fullVisitorId = c("2248... »
我有一个很长的注释基因列表。它们以不同的级别“A”、“B”、“C”等进行注释。每个级别都有不同的名称,在某些情况下还有不同的格式。我想保持每个级别的名称不变。在 R 中,文本文档被导入为 1 列,我想将 A、B、C 和 D 行分成列。行是按顺序排列的,意思是“B Level2”列在申请A Level1类别之后,在“C Level3”类别之上。 “#”将 D 级与下一个 A 级类别分开。 所以,在每... »
编辑: 经过进一步检查,这个数据集比我之前认为的要疯狂得多。 值已封装在列名中! 我的数据框如下所示: | ID | Year1_A | Year1_B | Year2_A | Year2_B | |----|---------|---------|---------|---------| | 1 | a | b | 2a | 2b | ... »
使用数据集df: df confint row Index 0.3407,0.4104 1 1 0.2849,0.4413 2 2 0.2137,0.2674 3 3 0.1910,0.4575 4 1 0.4039,0.4905 5 2 0.403,0.4822 6 3 0.0... »