【发布时间】:2016-11-08 00:11:57
【问题描述】:
我有一个推文列表,其中许多包含需要删除的表情符号。在 R 中执行此操作的最有效方法是什么?
我尝试了以下方法,该方法应该将所有以“\”开头的单词替换为空格,但我收到此错误
some_tweets <- gsub("\\\w+ *", "", some_tweets)
Error: '\w' is an unrecognized escape in character string starting ""\\\w"
以下是数据示例:
> head(some_tweets)
[1] "ஆமா நான் பாக்கவே இல்லை \U0001f625\U0001f625\U0001f625"
[2] "எனக்கு அனுப்பலாமே \U0001f913\U0001f913\U0001f913"
[3] "அவர் ஏன்டா ப்ளாக் பண்ணார் \U0001f602\U0001f602\U0001f602\U0001f602"
[4] "ஆமா"
[5] "RT : சும்மார்றா சுன்னி.. ~ ஆதவன்"
[6] "கைலியை எல்லாம் லூஸ் பண்ணிகிட்டு உக்காந்து இருக்கேன் அடுத்து போடுங்கயா \U0001f608\U0001f608\U0001f608"
> dput(head(some_tweets))
c("ஆமா நான் பாக்கவே இல்லை \U0001f625\U0001f625\U0001f625",
"எனக்கு அனுப்பலாமே \U0001f913\U0001f913\U0001f913",
"அவர் ஏன்டா ப்ளாக் பண்ணார் \U0001f602\U0001f602\U0001f602\U0001f602",
"ஆமா", "RT : சும்மார்றா சுன்னி.. ~ ஆதவன்",
"கைலியை எல்லாம் லூஸ் பண்ணிகிட்டு உக்காந்து இருக்கேன் அடுத்து போடுங்கயா \U0001f608\U0001f608\U0001f608"
)
【问题讨论】:
-
您只是在使用
gsub而没有使用正则表达式。您需要使用正则表达式。 -
\\\\w+ *工作吗? -
我试过
\\\\w+ *但它不起作用 -
输出应该是什么样的?
-
它应该保留所有的泰米尔语字符,而所有的表情符号(以“\U”开头的应该被删除
标签: r regex twitter unicode substitution