【发布时间】:2017-10-23 15:22:56
【问题描述】:
我有一个如下所示的数据框:
*VarName1* - *VarValue1*
*VarName2* - *VarValue2*
*Etc.*
实际上它看起来像这样:
nmlVar - noFloat
Date-Batch - 2011020147
Weight - 10
Length - 5
Height - 8
Date-Batch - 2011020148
Weight - 10.3
Length - 6
Height - 8
Date-Batch - 2011020147
Weight - 10
Length - 5
Height - 8
我正准备以可以将其用于分析的方式组织数据。我已经在这篇文章中找到了如何将行转换为列:Transposing rows into columns, then split them
我用这段代码转置:
library(dplyr)
library(tidyr)
DFP %>%
mutate(sample = cumsum(nmlVar == 'Batch')) %>%
spread(nmlVar, noFloat)
我也想做同样的事情,但是在上面的函数中使用“Date-Batch”变量作为关键变量。这是必需的,因为这是另一个数据框中使用的键,我想合并它们。
问题是这个 Date-Batch 变量并不总是具有唯一值(检查第一次和第三次出现)。我正在尝试找到一个删除相同日期批处理值的每一秒出现的函数。
我试图用“编程语言”来描述它:
FOR Date-Batch IN nmlVar IF duplicate DELETE 第二次出现
我不知道这是否是最好的方法,或者你可以用另一种方式设置我。
【问题讨论】:
-
第二批重复日期无论内容如何都应该删除?
-
@Moody_Mudskipper 是的,我有足够的数据行来忽略一些重复的分析
标签: r