【发布时间】:2016-05-18 06:14:06
【问题描述】:
当我在 DataFrame 上调用 describe 函数时出现问题:
val statsDF = myDataFrame.describe()
调用 describe 函数会产生以下输出:
statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string]
我可以通过调用statsDF.show()正常显示statsDF
+-------+------------------+
|summary| count|
+-------+------------------+
| count| 53173|
| mean|104.76128862392568|
| stddev|3577.8184333911513|
| min| 1|
| max| 558407|
+-------+------------------+
我现在想从statsDF 获取标准偏差和平均值,但是当我尝试通过执行以下操作来收集值时:
val temp = statsDF.where($"summary" === "stddev").collect()
我收到Task not serializable 异常。
当我打电话时,我也面临同样的异常:
statsDF.where($"summary" === "stddev").show()
我们似乎无法过滤describe()函数生成的DataFrames?
【问题讨论】:
-
我投票赞成。现在能够过滤由 describe 创建的 DF 很奇怪
标签: apache-spark apache-spark-sql apache-zeppelin