【问题标题】:Get unique RDD strings获取唯一的 RDD 字符串
【发布时间】:2016-08-24 10:25:05
【问题描述】:

我创建了以下示例 RDD,

val rdd = sc.parallelize(List(("something1@domainA.com"), 
                              ("something2@domainA.com"), 
                              ("something3@domainB.com")))

//I used the following to split,

val rdd1 = rdd.map(_.split("@")) //RDD[Array[String]]

我现在要做的是获得一个具有不同域的新 RDD,即

val finalrdd = sc.parallelize(List(("domainA"), 
                                   ("domainB")))

我找到了this post,但我无法让它工作。

【问题讨论】:

    标签: scala apache-spark


    【解决方案1】:

    试试:

    rdd.map(_.split("@")).flatMap { case Array(_, d) => d.split("\\.").headOption }.distinct
    

    【讨论】:

      猜你喜欢
      • 2021-05-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多