【发布时间】:2016-08-24 10:25:05
【问题描述】:
我创建了以下示例 RDD,
val rdd = sc.parallelize(List(("something1@domainA.com"),
("something2@domainA.com"),
("something3@domainB.com")))
//I used the following to split,
val rdd1 = rdd.map(_.split("@")) //RDD[Array[String]]
我现在要做的是获得一个具有不同域的新 RDD,即
val finalrdd = sc.parallelize(List(("domainA"),
("domainB")))
我找到了this post,但我无法让它工作。
【问题讨论】:
标签: scala apache-spark