【发布时间】:2014-08-02 15:09:34
【问题描述】:
我想使用 R 的正则表达式从推文中提取哈希标签(我想将其保留在基础 R 中,但欢迎其他解决方案为未来的搜索者提供稳健的答案)。
我有一个正则表达式,我认为它会删除哈希标签,但发现了一个极端情况,即 url 中有一个 #,如下面的 MWE 所示。 如何删除文本中的井号标签但保留 URL 中的 #?
这是一个 MWE 和我尝试过的代码:
text.var <- c("Slides from great talk: @ramnath_vaidya: Interactive slides from Interactive Visualization",
"presentation #user2014. http://ramnathv.github.io/user2014-rcharts/#1")
gsub("#\\w+", "", text.var)
gsub("#\\S+", "", text.var)
所需的输出是:
[1] "Slides from great talk: @ramnath_vaidya: Interactive slides from Interactive Visualization"
[2] "presentation . http://ramnathv.github.io/user2014-rcharts/#1"
注意 R 的正则表达式与其他正则表达式类似,但是是 R 特有的。这个问题是 R 的正则表达式特有的,而不是一般的正则表达式问题。
【问题讨论】: