Spark 流式合并数据答案

【问题标题】：Spark streaming merge dataSpark 流式合并数据
【发布时间】：2015-03-12 16:19:04
【问题描述】：

我的理解是 Spark Streaming 序列化闭包（例如 map、filter 等）并在工作节点上执行它（如 here 解释的那样）。有没有办法将结果发送回驱动程序并在本地机器上执行进一步的操作？

在我们的特定用例中，我们试图将 Spark 产生的结果转换为可观察的流（使用 RxScala）。

【问题讨论】：

流上的所有输出操作都显示在这里：spark.apache.org/docs/1.2.1/…。如果预定义还不够，那么您应该使用 foreachRDD 创建自己的输出。
是的，这是可能的，但按原样回答问题只会复制文档上的内容。你能把你的问题缩小到一个特定的用例吗？如果你能添加说明性代码就更好了。

【解决方案1】：

有人发表了评论，但随后将其删除。他建议在 RDD 上使用collect()。一个简单的测试表明 collect 从工作节点收集数据并在驱动节点上执行；正是我需要的。

【讨论】：