【发布时间】:2016-01-28 21:10:14
【问题描述】:
我正在尝试摆脱在我的数据中散布的一些 unicode 字符串。
Sample data <- "['oguma', 'makeup', u'\u0e27\u0e34\u0e15\u0e32\u0e21\u0e34\u0e19\u0e2b\u0e19\u0e49\u0e32\u0e40\u0e14\u0e47\u0e01', 'jeban',]"
我想捕获以 u'\ 开头的所有内容,并在末尾包含逗号。
我想从以下开始:
gsub("u/\\/\'....
+ 包括下一个逗号在内的所有内容,但我不确定如何说第二部分。
结果:
Sample data <- "['oguma', 'makeup', 'jeban',]"
建议?
【问题讨论】:
-
您希望结果为
"['oguma', 'makeup', u'', 'jeban',]"吗?看看this demo。问题是,这些不是文字代码,它们是 ASCII 范围之外的字符。 -
我不知道 R 使用哪个引擎,但它不是 Perl 的(因为只有
perl使用它)。也许是PCRE?调整标签。