【发布时间】:2020-09-02 11:14:36
【问题描述】:
我想检查数据框的不同值,并且我知道有一种方法可以做到这一点。我想看看rabbit、platypus 和book 列的唯一值。
这是第一种方式
mydf
.select("rabbit", "platypus", "book")
.distinct
.show
这是第二种方式
mydf
.select("rabbit", "platypus", "book")
.distinct
.count
这是另一种方式
val rabbit = mydf.groupByKey(log => {
val rabbit = mydf.rabbit
rabbit
}).count.collect
val platypus = mydf.groupByKey(log => {
val platypus = mydf.platypus
platypus
}).count.collect
val book = mydf.groupByKey(log => {
val book = mydf.book
book
}).count.collect
【问题讨论】:
-
您也可以尝试
.dropDuplicates()或在其中添加列dropDuplicates(colNames)
标签: apache-spark pyspark apache-spark-sql apache-zeppelin