【发布时间】:2018-07-11 00:20:29
【问题描述】:
我有很多字符串都具有以下格式:
mystrings <- c(
"(ABFUHIASH)THISISAVERYLONGSTRINGWITHOUTANYSPACES(ENDING)",
"(SECONDSTR)YETANOTHERBORINGSTRINGWITHOUTSPACES(RANDOMENDING)",
"(JOWERIC)THISPARTSHOULDNOTBEEXTRACTED(GETTHIS)",
"(CAPTURETHIS)IOJSDOIOIADSNCXZZCX(IJFAI)"
)
我需要捕获原始mystrings 开头和结尾处括号内的字符串。
因此,变量start 将存储上述每个具有相同索引的字符串的起始字符。结果将是这样的:
start[1]
ABFUHIASH
start[2]
SECONDSTR
start[3]
JOWERIC
start[4]
CAPTURETHIS
同样,mystrings 中每个字符串的结尾将保存到end:
end[1]
ENDING
end[2]
RANDOMENDING
end[3]
GETTHIS
end[4]
IJFAI
不应捕获括号本身。
有没有一种方法/功能可以在 R 中快速做到这一点?
我尝试过stringr::word 和stringi::stri_extract,但得到的结果很奇怪。
【问题讨论】:
标签: r regex text-extraction stringr stringi