【发布时间】:2023-04-02 20:25:01
【问题描述】:
我想使用 R 对 Twitter 帖子执行一些分析,例如 Donald Trump 的这条推文(通过 Twitter API 提取):
"Join me LIVE in South Korea\U0001f1fa\U0001f1f8\U0001f1f0\U0001f1f7\n#NationalAssembly #POTUSinAsia"
首先我想知道这些是否是我可以用来选择转义的 unicode 的正则表达式(例如:\U0001f1f8)。
我认为会起作用的表达式,例如:\\[[:alnum:]]{9} 不起作用。但是,我收到了一条有趣的错误消息:
grepl("\[[:alnum:]]{9}", x, perl = T) 中的错误:无效的正则 表达式 '[[:alnum:]]{9}' 另外:警告消息:在 grepl("\[[:alnum:]]{9}", x, perl = T) : PCRE 模式编译 错误“仅在类中支持 POSIX 命名类” '[:alnum:]]{9}'
另外,我想知道是否有一种方法可以将这些转义的 unicode 转换回它们应该表示的字符,以便我可以在应用程序的前端将它们显示给用户。
【问题讨论】: