【发布时间】:2016-04-15 12:14:04
【问题描述】:
我可以在两个 Spark DStream 上进行 JOIN,例如:
val joinStream = stream1.join(stream2)
现在,如果我需要过滤掉所有未加入的记录怎么办。本质上,类似于stream1.anti-join(stream2)。这有可能吗?
感谢并感谢任何帮助!
【问题讨论】:
-
我不明白你说的反加入是什么意思
-
JOIN 发生在具有共同 Key 的记录之间,对吗?我需要来自两个流的所有记录,这些记录没有共同的 JOIN 键。
-
我从未在流上尝试过。我不确定它是否存在。
-
基本上你必须做一个
full_outer连接,然后过滤掉结果连接行两侧没有null值的记录。
标签: scala apache-spark apache-spark-sql spark-streaming