【发布时间】:2016-10-04 04:47:37
【问题描述】:
好的,所以我有一个网络论坛 cmets 的数据框。每行都有一个包含 ID 的单元格,该 ID 是该评论的父评论链接的一部分。这些行包含评论的完整永久链接,其中 ID 是变化的部分。
我想添加一列,显示附加到该父评论的用户名。我假设我需要使用一些正则表达式函数,此时我觉得这很神秘。
在工作流术语中,我需要找到其 URL 包含父评论 ID 的行,从该行中获取用户名。这是一个玩具示例:
toy <- rbind(c("yes?", "john", "www.website.com/4908", "3214", NA), c("don't think so", "mary", "www.website.com/3958", "4908", NA))
toy <- as.data.frame(toy)
colnames(toy) <- c("comment", "user", "URL", "parent", "parent_user")
comment user URL parent parent_user
1 yes? john www.website.com/4908 3214 <NA>
2 don't think so mary www.website.com/3958 4908 <NA>
需要变成:
comment user URL parent parent_user
1 yes? john www.website.com/4908 3214 <NA>
2 don't think so mary www.website.com/3958 4908 john
此列中的某些值将是 NA,因为它们是顶级 cmets。比如,
dataframe$parent_user <- dataframe['the row where parent
ID i is found in the URL column', 'the user name column in that row']
谢谢!!
【问题讨论】: