【发布时间】:2014-09-12 16:49:06
【问题描述】:
编辑:
(对于我的示例过于简单,我深表歉意,我将尝试解决这个问题,并将我更相关的示例格式化为更方便的格式,以便直接复制到 R 中。特别是,有多个值列,以及前面的一些列以及不需要解析的其他信息。)
我对 R 和 data.table 还很陌生,所以我希望能就我发现的问题提供意见。我正在使用一个数据表,其中一列是以冒号分隔的格式字符串,用作其他以冒号分隔的列中值的图例。为了解析它,我必须首先将它拆分为它的组件,然后搜索我需要稍后索引值字符串的组件的索引。这是我可能遇到的那种情况的简化示例
DT <- data.table(number=c(1:5),
format=c("name:age","age:name","age:name:height","height:age:name","weight:name:age"),
person1=c("john:30","40:bill","20:steve:100","300:70:george","140:fred:20"),
person2=c("jane:31","42:ivan","21:agnes:120","320:72:vivian","143:rose:22"))
当评估时,我们得到
> DT
number format person1 person2
1: 1 name:age john:30 jane:31
2: 2 age:name 40:bill 42:ivan
3: 3 age:name:height 20:steve:100 21:agnes:120
4: 4 height:age:name 300:70:george 320:72:vivian
5: 5 weight:name:age 140:fred:20 143:rose:22
假设对于每个人,我只需要知道他们的姓名和年龄,而不需要他们的身高或体重;在这个例子中,在我的实际数据中,每个格式字符串都有姓名和年龄字段,但可能在不同的位置(我实际查找的字段通常固定在某些列中,但我不愿意硬编码任何索引,因为我不完全熟悉我正在使用的数据文件的生成)。我会首先拆分格式字符串,然后使用 match() 搜索我想要的字段名称。
DT[, format.split := strsplit(format, ":")]
此时,我用来执行匹配的唯一方法是 vapply:
DT[, index.name := vapply(format.split, function (x) match('name', x), 0L)]
DT[, index.age := vapply(format.split, function (x) match('age', x), 0L)]
因为我不知道有任何其他方法可以让 R 知道它应该单独查看列中的行,而不是作为向量聚集在一起,并对向量值 format.split 执行匹配每一行的列,而不是试图匹配整列的行。即使这样,一旦我找到每一行的索引,我必须执行另一个 strsplit,然后执行一个 mapply 来解析每个人的值字符串中的名称值和年龄值:
DT[, person1.split := strsplit(person1, ':')]
DT[, person1.name := mapply(function (x,y) x[y], person1.split, index.name]
DT[, person1.age := mapply(function (x,y) x[y], person1.split, index.age]
DT[, person2.split := strsplit(person2, ':')]
DT[, person2.name := mapply(function (x,y) x[y], person2.split, index.name]
DT[, person2.age := mapply(function (x,y) x[y], person2.split, index.age]
(当然,我也会为年龄做同样的事情)
我正在处理相当大的数据集,因此我希望我的代码尽可能高效。有没有人对我可以加快或优化我的代码的方法提出建议?
(注意:我真的在寻找正确的方法,而不是使用正确的 *apply 或 *ply 或 Map 函数。如果 *(ap)ply 或 Map 真的是正确的方法,我会很感激知道哪个是最有效或最适合我的情况的方法,但如果有更好的方法来测试行内重复,我更愿意对此提出建议而不是功能建议。不过,欢迎提出建议。
编辑 2:
事实证明,我的示例比它需要的更通用。我只需要两个字段,它们始终是格式字符串中的前两个字段,没有变化。第一个字段只是一个文字字符串。但是,第二个字段至少包含 2 个数字,用逗号分隔(最终,我会过滤掉第二个字段中任何超过 2 个数字的行,因此只有在解析之后发生过滤时,更多的可能性才相关) .对于 (3) 个值字符串中的每一个,我只需要创建三列:第一个字段的字符列和两个数字列,一个用于第二个字段中逗号分隔对的每个成员。任何其他字段都无关紧要。我目前的方法可能效率很低,它是使用 sub() 对所需字段和具有反向引用的子字段进行模式匹配。
> DT <- data.table(id=1:5,
format=c(rep("A:B:C:D:E", 5)),
person1=paste(paste0("foo",LETTERS[1:5]), paste(1:5, 10:6, sep=','), "blah", "bleh", "bluh", sep=':'),
person2=paste(paste0("bar",LETTERS[1:5]), paste(16:20, 5:1, sep=','), "blah", "bleh", "bluh", sep=':'),
person3=paste(paste0("baz",LETTERS[1:5]), paste(0:4, 12:8, sep=','), "blah", "bleh", "bluh", sep=':'))
> DT
id format person1 person2 person3
1: 1 A:B:C:D:E fooA:1,10:blah:bleh:bluh barA:16,5:blah:bleh:bluh bazA:0,12:blah:bleh:bluh
2: 2 A:B:C:D:E fooB:2,9:blah:bleh:bluh barB:17,4:blah:bleh:bluh bazB:1,11:blah:bleh:bluh
3: 3 A:B:C:D:E fooC:3,8:blah:bleh:bluh barC:18,3:blah:bleh:bluh bazC:2,10:blah:bleh:bluh
4: 4 A:B:C:D:E fooD:4,7:blah:bleh:bluh barD:19,2:blah:bleh:bluh bazD:3,9:blah:bleh:bluh
5: 5 A:B:C:D:E fooE:5,6:blah:bleh:bluh barE:20,1:blah:bleh:bluh bazE:4,8:blah:bleh:bluh
然后我的代码会这样做:
DT[, `:=`(person1.A=sub("^([^:]*):.*$","\\1", person1),
person2.A=sub("^([^:]*):.*$","\\1", person2),
person3.A=sub("^([^:]*):.*$","\\1", person3),
person1.B.first=sub("^[^:]*:([^:,]*),.*$","\\1", person1),
person1.B.second=sub("^[^:]*:[^:,]*,([^:,]*)(,[^:,]*)*:.*$","\\1", person1),
person2.B.first=sub("^[^:]*:([^:,]*),.*$","\\1", person2),
person2.B.second=sub("^[^:]*:[^:,]*,([^:,]*)(,[^:,]*)*:.*$","\\1", person2),
person3.B.first=sub("^[^:]*:([^:,]*),.*$","\\1", person3),
person3.B.second=sub("^[^:]*:[^:,]*,([^:,]*)(,[^:,]*)*:.*$","\\1", person3))]
用于拆分,并过滤
DT <- DT[grepl("^[^:]*:[^:,]*,[^:,]*:.*$", person1) &
grepl("^[^:]*:[^:,]*,[^:,]*:.*$", person2) &
grepl("^[^:]*:[^:,]*,[^:,]*:.*$", person3) ]
我知道这种方法可能效率很低,但这是我对重复应用 strsplit 的旧方法提出的第一个改进。考虑到新的条件,有没有比melt、csplit、dcast更好的做事方式?
编辑 3:
由于我只需要前两个字段,因此我最终修剪了所有值字符串,删除了超过两个逗号(即超过 3 个第二字段数字)的字符串,将逗号更改为冒号,替换了格式字符串每行都有(现在是 3 个)字段的名称,并按照@AnandaMahto 的建议执行 dcast(csplit(melt)) 。它似乎运作良好。
【问题讨论】:
-
它是否总是由冒号分隔的两个值?
-
@AnandaMahto 这只是一个例子。可能存在不同数量的字段和不同的字段顺序。
-
好的。但通常最好用可能实际代表您的问题的术语来描述您的问题:-)
-
@AnandaMahto 我改变了问题,因为我的问题超出了过滤范围。只是想给你一个提示。我还让这个例子更符合我将要使用的标准。
标签: r data.table