【发布时间】:2015-05-17 02:39:48
【问题描述】:
我正在处理出院数据。具有相同 Patient_ID 的所有住院(病例)应该是同一个人。但是我发现有不同年龄和性别的 Pat_ID。
假设我有一个这样的数据集:
Case_ID <- 1:8
Pat_ID <- c(rep("1",4), rep("2",3),"3")
Sex <- c(rep(1,4), rep(2,2),1,1)
Age <- c(rep(33,3),76,rep(19,2),49,15)
Pat_File <- data.frame(Case_ID, Pat_ID, Sex,Age)
Case_ID Pat_ID Sex Age
1 1 1 33
2 1 1 33
3 1 1 33
4 1 1 76
5 2 2 19
6 2 2 19
7 2 1 49
8 3 1 15
用彼此不同的案例识别 Pat_ID 相对容易。我通过在函数聚合的帮助下计算年龄和/或性别的平均值(编码为 1 和 2)找到这些 ID,然后计算平均值与年龄或性别之间的差异。我想自动删除/识别年龄或性别与大多数患者 ID 病例不同的病例。在我的示例中,我想删除案例 4 和 7。
【问题讨论】:
-
该链接用于识别统计异常值,而不是异常情况,这是 OP 的问题
标签: r data-cleaning