【发布时间】:2016-09-08 07:36:03
【问题描述】:
是否有可能在 Spark Streaming 中的 DStream 内的每个微批处理结束时执行一些操作?我的目标是计算 Spark 处理的事件数。 Spark Streaming 给了我一些数字,但平均值似乎也总和为零(因为一些微批次是空的)。
例如我确实收集了一些统计数据并希望将它们发送到我的服务器,但是收集数据的对象仅存在于某个批次期间,并且会从头开始为下一批进行初始化。我希望能够在批处理完成并且对象消失之前调用我的“完成”方法。否则我会丢失尚未发送到我的服务器的数据。
【问题讨论】:
-
你有什么不适合你的代码示例吗?
-
这有点难以解释。我们使用我们以前用java编写的代码。它嵌入在地图功能中。我们收集性能数据并将其发送到我们的服务器的操作员正在重新初始化每个新批次。最好能够在我们的操作员被“杀死”之前向我们的服务器发送数据。
标签: performance apache-spark streaming spark-streaming dstream