【发布时间】:2015-08-18 19:02:49
【问题描述】:
我有 JavaPairDStream>String, Long> 流 和 JavaPairRDD >String, Long> 批处理。 现在我想加入这两个。基本上我想使用 Spark 将实时数据与批处理数据连接起来。但是直接在参数内使用 JavaPairDStream 来加入会出错。我必须做出哪些改变才能加入这两者。这也是正确的方法还是有另一种方法可以在 spark 中结合批处理视图和实时视图。
例如:stream.leftOuterJoin(batch);
这显示错误。我知道它们是两种不同的数据类型,但由于 JavaPairDStream 是实时 RDD 的抽象,它应该可以工作。
任何关于如何加入批处理视图和实时视图的建议都会有所帮助。谢谢。
对于 JavaPairDStream 和 JavaPairRDD 中的错误 > 深表歉意。我无法找到正确的转义字符来正确编写它。
【问题讨论】:
标签: apache-spark left-join spark-streaming