【发布时间】:2016-12-22 07:09:04
【问题描述】:
我有一个大约 12000 行的大型数据集。数据由位移值和时间戳组成。对于每 10 行,我想计算平均值、标准偏差等。
我可以为此使用窗口功能吗?或者有人可以提出更简单的方法吗?
P.S:我是 Spark 和 scala 的新手。提前致谢。
【问题讨论】:
-
你自己想出了什么?你如何计算垃圾箱?您可以执行
reduceByKey操作,其中键是相应的 bin。 -
Binsize 没有预先定义。它是来自用户的输入参数。我不认为 reduceByKey 可以解决这个问题。
标签: scala apache-spark spark-dataframe