如何从Scala SPARK中的Array [String]（它是一个字符串数组，每个字符串有多个单词）中获取唯一单词[关闭]答案

【问题标题】：How to get unique words from a Array[String](It's an array of strings, each string has multiple words) in Scala SPARK [closed]如何从Scala SPARK中的Array [String]（它是一个字符串数组，每个字符串有多个单词）中获取唯一单词[关闭]
【发布时间】：2020-01-08 04:06:48
【问题描述】：

我有一个 DataFrame，它有一个字符串形式的列。这看起来像：

`+--------------------------------------------------------------------------------------------------------------------------------------+
|queue_sequence                                                                                                                        |
+--------------------------------------------------------------------------------------------------------------------------------------+
|In Queue,In-Progress,Internally,Development Done/ Eng testing,In-Progress,Development Done/ Eng testing,Complete                      |
|In Queue,In-Progress,Complete,In-Progress,Complete                                                                                    |
|In Queue,Development,Development Ready,In Queue,Development,In Queue,Complete                                                         |
|In Queue,Analyze,In-Progress,ISRM,Externally,ISRM,Complete                                                                            |
|In Queue,Complete,In-Progress,Complete                                                                                                |
|In Queue,DSM/UCL,Complete                                                                                                             |
|In Queue,In-Progress,Development Done/ Eng testing,Complete,In Queue,In-Progress,Development Done/ Eng testing,Complete               |
|In Queue,In-Progress,Externally,Development Done/ Eng testing,Complete                                                                |
|In Queue,In-Progress,Development Done/ Eng testing,DSM/UCL,In-Progress,ISRM,In-Progress,Development Done/ Eng testing,Complete        |
|In Queue,Development,Development Ready,In Queue,Development,Development Done/ Eng testing,Development,Complete                        |
|In Queue,In-Progress,In Queue,In-Progress,ISRM,Complete                                                                               |
|In Queue,Development Ready,In-Progress,Done,Complete                                                                                  |`

我想取每行中所有逗号分隔的单词的唯一性。

我试过下面的代码

 `df.select("queue_sequence") .collect() .map(_.mkString)`

并将其存储在一个看起来像 Array[String] 的变量中：

Array[String] = Array(In Queue,
                      In-Progress,
                      Internally,
                      Development Done/ Eng testing,
                      In-Progress,
                      Development Done/ Eng testing,
                      Complete, 
                      In Queue,
                      In-Progress,
                      Complete,
                      In-Progress,
                      Complete, 
                      In Queue,
                      Analyze,
                      In-Progress,
                      ISRM,
                      Externally,
                      ISRM,
                      Complete, 
                      In Queue,
                      Development,
                      Development Ready,
                      In Queue,
                      Development,
                      In Queue,Complete
                     )

但是这个列表并不是唯一的。那么我如何让它们成为不同的格式

我尝试了以下方法：

.toSet.toList
.toList.Distinct

我无法从该数组中获得不同的单词。上面的方法我都试过了，都不管用。

【问题讨论】：

Spark 与这个问题有何关联？
是的。因为该列表是从 spark 数据框列中收集的。查看我的 cmets
编辑了问题以澄清。这显然是火花

标签： arrays string scala apache-spark distinct-values

【解决方案1】：

这可以正常工作。以下是您的数据的一些示例：

你的数组：

arr: Array[String] = Array(In Queue, In-Progress, Internally, Development Done/ Eng testing, In-Progress, Development Done/ Eng testing, Complete, In Queue, In-Progress, Complete, In-Progress, Complete, In Queue, Analyze, In-Progress, ISRM, Externally, ISRM, Complete, In Queue, Development, Development Ready, In Queue, Development, In Queue, Complete)

不同的元素：

方法一：直接在数组上使用distinct

val distinct_array=arr.distinct
distinct_array: Array[String] = Array(In Queue, In-Progress, Internally, Development Done/ Eng testing, Complete, Analyze, ISRM, Externally, Development, Development Ready)

方法 2：将其转换为一个集合（它会自动获取不同的值，然后您可以进行并集和交集）

val set_arr=arr.toSet
set_arr: scala.collection.immutable.Set[String] = Set(Complete, ISRM, Development, In Queue, Internally, Development Done/ Eng testing, Analyze, In-Progress, Development Ready, Externally)

//union example
set_arr.union(set2)

//intersection example
set_arr.intersect(set2)

【讨论】：

arr.distinct 不起作用，因为数组是通过以下方式生成的：df.select("queue_sequence") .collect() .map(_.mkString)
如果你有一个数据框，那你为什么要从中取出一个数组呢？您已经可以在数据框列上运行 distinct，而且它更有效。此外，在数据帧上进行联合和交集更容易。另一个重要注意事项 - 应用 collect() 函数将所有数据放入驱动程序，这不是处理 spark 操作的好方法。
因为我的 df 列的每一行都是单词的集合，看起来像：第一行 - In Queue,In-Progress,Internally,Development Done/ Eng testing,In-Progress,Development Done/ Eng testing,Complete _______________ 第二行 In Queue,In-Progress,Complete,In-Progress,Complete 我想要所有这些单词的联合

【解决方案2】：

获取唯一元素的最佳和最简单的方法是将数组转换为集合。

scala> val ar=Array("abc","def","abc")

ar: Array[String] = Array(abc, def, abc)

scala> ar.toSet

res1: scala.collection.immutable.Set[String] = Set(abc, def)

【讨论】：