【发布时间】:2019-03-30 22:17:35
【问题描述】:
我有一个数据框,其中有一列包含这样的 URls:
https://www.facebook.com/nameofpage/posts/13142894231
我正在尝试仅将此列的 nameofpage 部分提取到新列中。我无法弄清楚如何在该确切位置提取字符串。字符串有时包含文字“.”、文本和数字。
我一直在尝试使用来自 tidyr 的 strsplit 和 separate,但效果有限。
tidyr 代码如下所示:
separate(Link, c(NA, NA, NA, "target"), sep = "/")
但是,这根本不起作用。
我希望将nameofpage 提取到列中,但有时输出实际上是 URL 的另一部分。
【问题讨论】:
-
您要检查哪个特定字符串?您还可以添加更多示例吗?
-
“在两个正斜杠之间和特定字符串之后” 那么“特定”字符串是什么?
-
问题是字符串总是不同的。有时它只是文本,有时是带有数字的文本,有时是带有文字“。”的文本。某处,或三者的结合。我只是想获取
nameofpage字符串,所以它总是在“facebook.com/”之后。 -
另一个类似于 G5W 解决方案的选项,但不止一个元素:
sapply(strsplit(c(x, x), split = "/", fixed = TRUE), "[[", 4)
标签: r regex regex-lookarounds