如何使用 Spark Scala 计算 Bin 平均值？

【问题标题】：How to Calculate Bin Averages using Spark Scala?如何使用 Spark Scala 计算 Bin 平均值？
【发布时间】：2016-12-22 07:09:04
【问题描述】：

我有一个大约 12000 行的大型数据集。数据由位移值和时间戳组成。对于每 10 行，我想计算平均值、标准偏差等。

我可以为此使用窗口功能吗？或者有人可以提出更简单的方法吗？

P.S：我是 Spark 和 scala 的新手。提前致谢。

【问题讨论】：

你自己想出了什么？你如何计算垃圾箱？您可以执行reduceByKey 操作，其中键是相应的 bin。
Binsize 没有预先定义。它是来自用户的输入参数。我不认为 reduceByKey 可以解决这个问题。

标签： scala apache-spark spark-dataframe

【解决方案1】：

是的，可以使用 rolling windows 和 lag、lead、rowsBetween 等大量选项，具体取决于您的用例，这里有一些链接：windows explained more windows info

【讨论】：

你知道增加窗口函数步长/滑动大小的方法吗？默认情况下，它设置为 1。
据我所知，Window 函数会计算每一行的结果，有重叠。我想要每个 bin 一个结果。即平均10行。然后平均接下来的 10 行。 [1-10 - bin1,11-20 -bin2 ] 以此类推。
请粘贴您的代码 - 数据框和所需的输出

猜你喜欢

scala：如何在 specs2 中实现这个匹配器 2025-11-21
使用 jq 从数组 json 中选择值 2025-11-21
避免使用动态表名，但是如何使用呢？ 2025-11-21
如何使用 SQL 重命名数据库表中的列？ 2025-11-21
如何使用 Gensim 在葡萄牙语中生成词嵌入？ 2025-11-21
使用索引同时从 numpy 2D 数组的行中减去多个值 2025-11-21
如何恢复终端？ 2025-11-21
PowerMockito.whenNew 正在使用参考而不是使用对象 2025-11-21
如何检查是否从 iPhone 上的网页安装了应用程序 1970-01-01
iOS Facebook 如何获得推荐的朋友，如 Hangtime 或 DrinkAdvisor 2025-11-21

相关资源

Visual Studio.NET使用技巧手册完整版PDF(中文+英文)下载 2021-06-07

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式