【发布时间】:2018-02-09 20:34:18
【问题描述】:
我有以下 df
df = data.frame(id = c(1,2,3), text = c('Label issues as ISS101 and ISS 201 on label 23 with x203 17','issue as ISS5051 with label 01 as l018','there is nothing here')
我想从 df 中提取并创建以下数据框
id iss label ext1 ext2
1 ISS101 23 x203 17
1 ISS201 23 x203 17
2 ISS5051 01 l018 NA
3 NA NA NA NA
如示例中所示,iss 的长度可能会有所不同。它在“ISS”和后续数字之间可能有也可能没有空格,这在例如 标签的长度,ext1 & ext2 是固定的。 我已经尝试了使用 stringr 和 dplyr 的正则表达式的各种可能性。但这些都不是解决方案,因此值得在这里一提。期待帮助,如果您需要更多详细信息,请告诉我。
【问题讨论】:
标签: r regex gsub stringr alphanumeric