【发布时间】:2019-06-25 03:15:51
【问题描述】:
假设我有一些模式的流数据如下:
uid: string
ts: timestamp
现在假设数据已按uid 分区(在每个分区中,数据最少,例如小于 1 行/秒)。
我想根据事件时间ts将数据(在每个分区中)放入窗口,然后对每个窗口中的所有元素进行排序(也基于ts),最后应用自定义转换窗口中的每个元素按顺序排列。
Q1:有没有办法获得窗口的聚合视图,但保留每个元素,例如将一个窗口中的所有元素具体化为一个列表?
Q2:如果Q1可以,我想设置一个水印和触发组合,在窗口结束时触发一次,然后要么定期触发,要么每次延迟数据到达时触发。有可能吗?
【问题讨论】:
标签: apache-spark spark-structured-streaming