【发布时间】:2016-03-16 17:24:41
【问题描述】:
我是 spark 的新手(Python 中的 spark-streaming),如果我理解正确,DStream 是 RDD 的序列。
想象一下我们的代码:
ssc = StreamingContext(sc, 5)
所以每 5 秒生成一个 DSTream 对象,它是一个 RDD 序列。
想象一下我有两个 DStreams DS1 和 DS2(每个 5s)。我的代码是:
DGS1 = DS1.groupByKey()
DGS2 = DS2.groupByKey()
FinalStream = DS1.join(DS2)
当我调用 groupByKey 和 Join(在 RDD 级别)时,内部会发生什么?
谢谢!
【问题讨论】:
标签: spark-streaming