【发布时间】:2016-02-08 13:53:03
【问题描述】:
我需要有效地解析我的数据框列之一(一个 url 字符串) 并调用一个函数(strsplit)来解析它,例如:
url <- c("www.google.com/nir1/nir2/nir3/index.asp")
unlist(strsplit(url,"/"))
我的数据框:spark.data.url.clean 看起来像这样:
classes url
[107,662,685,508,111,654,509] drudgereport.com/level1/level2/level3
这个 df 有 100k 行,我不想循环/迭代它,分别解析每个 url 并将结果写入一个新的数据帧。 我需要/想要的是创建一个新的 5 列数据框:
df.result <- data.frame(fullurl = as.character(),baseurl=as.character(), firstlevel = as.character(), secondlevel=as.character(),thirdlevel=as.character(),classificaiton=as.character())
在spark.data.url.clean$url 上调用“应用”系列函数之一
并将结果写入新数据框df.result,以便第一列(fullurl)将填充相关的spark.data.url.clean$url,第二到第五列将填充应用的相关结果
unlist(strsplit(url,"/"))
- 从结果向量中取出唯一的第一个、第二个、第三个和第四个元素并将其放入df.result 的第一、第二、第三和第四列,最后将spark.data.url.clean$classes 放入新的数据框列df.result$classificaiton
对不起,如果有什么需要进一步清理的,请告诉我。
【问题讨论】: