【发布时间】:2026-01-28 20:40:01
【问题描述】:
我正在尝试计算 spark 数据集 s 中每一列中唯一元素的数量。
但是,spark 似乎无法识别 tally()
k<-collect(s%>%group_by(grouping_type)%>%summarise_each(funs(tally(distinct(.)))))
Error: org.apache.spark.sql.AnalysisException: undefined function TALLY
spark 似乎也无法识别简单的 r 函数,例如“unique”或“length”。我可以在本地数据上运行代码,但是当我尝试在 spark 表上运行完全相同的代码时,它不起作用。
```
d<-data.frame(cbind(seq(1,10,1),rep(1,10)))
d$group<-rep(c("a","b"),each=5)
d%>%group_by(group)%>%summarise_each(funs(length(unique(.))))
A tibble: 2 × 3
group X1 X2
<chr> <int> <int>
1 a 5 1
2 b 5 1
k<-collect(s%>%group_by(grouping_type)%>%summarise_each(funs(length(unique(.)))))
Error: org.apache.spark.sql.AnalysisException: undefined function UNIQUE;
```
【问题讨论】:
标签: r apache-spark statistics dplyr sparklyr