Spark 结构化流答案

【问题标题】：Spark Structured StreamingSpark 结构化流
【发布时间】：2017-05-04 18:02:20
【问题描述】：

如何通过单个作业在 Kafka 流上运行多个流式 SQL 查询。结构化流媒体是一种可靠的前进方式。例如，我在单个作业中对流运行 10 个查询。假设我只想运行 9 个查询，有没有办法动态更改每次运行时从商店运行的查询。我希望在每次执行流式查询（即连续查询）时从存储中动态选择查询。

【问题讨论】：

我不明白你的要求。但是您可以在使用结构化流时获取查询对象并启动或停止其中的任何一个。
您好 zsxwing，在以下示例中，github.com/apache/spark/blob/master/examples/src/main/java/org/…
您好 zsxwing，在以下示例中，github.com/apache/spark/blob/master/examples/src/main/java/org/… 查询对象的执行被阻止，直到它被终止。但是，是否可以通过另一个对象访问该对象。我想开发一个休息之类的触发器来更改已运行的查询
您无需致电awaitTermination。这个例子需要在main方法结束时阻塞，否则JVM会退出，用户看不到输出。
我计划使用结构化流spark.apache.org/docs/latest/… 在即将发布的版本中，此功能是否可以用于生产。如果是，我想在数据集上指定“原始 SQL”。我可以在为流式查询注册的临时表上使用原始 SQL。它是高效的还是正确的方法。我的功能是通过 Kafka 流提供连续的 SQL 查询。

标签： apache-spark apache-kafka spark-structured-streaming

【解决方案1】：

如果你想处理多个查询，你应该使用spark.streams.awaitAnyTermination()

val spark = SparkSession
      .builder()
      .getOrCreate() 
val query1 =  spark ... 
val query2 =  spark ...  
spark.streams.awaitAnyTermination()

然后，您可以从 Stream 中读取 SQL 原始查询并将其值用于其他流，而不会出现任何问题。

【讨论】：