【发布时间】:2020-04-29 21:57:20
【问题描述】:
是否可以在聚合时间窗口结束之前,在每个触发器上输出聚合数据?
上下文:我正在开发一个应用程序,它从 Kafka 主题读取数据、处理数据、在 1 小时的窗口内聚合数据,然后输出到 S3。但是,可以理解的是,Spark 应用程序仅在给定小时窗口结束时才将聚合数据输出到 S3。
问题在于 S3 中聚合数据的最终用户只能有一个半实时的视图,因为他们总是迟到一个小时,等待从 spark 应用程序输出下一个聚合。
将聚合时间窗口减少到小于一小时肯定会有所帮助,但会产生更多数据。
如何使用最少的资源实现实时聚合?
【问题讨论】:
标签: apache-spark spark-structured-streaming