【发布时间】:2023-10-03 22:35:01
【问题描述】:
我有一个数据框:
+------------------+
| speed |
+------------------+
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 3.851015222867941|
| 4.456657435740331|
| 0.0|
| NaN|
| 0.0|
| 0.0|
| NaN|
| 0.0|
| 0.0|
| 5.424094717765175|
|1.5781185921913181|
|2.6695439462433033|
| 17.43513658955467|
| 5.440912941359523|
|11.507138536880484|
|12.895677610360089|
| 9.930875909722456|
+------------------+
我想计算速度列的平均值和标准差。 当我执行这段代码时
dataframe_final.select("speed").orderBy("id").agg(avg("speed")).show(1000)
我明白了
+------------+
|avg(speed)|
+------------+
| NaN|
+------------+
问题出在哪里?有没有办法解决?
谢谢
【问题讨论】:
-
agg(avg("Vitesse"))将尝试计算Vitesse在groupBy之后的列的平均值。
标签: scala apache-spark