【发布时间】:2018-02-05 18:22:56
【问题描述】:
我正在使用 Spark 结构化流处理来自 Kafka 的数据。我将每条消息转换为 JSON。然而,spark 需要一个 explicit 模式来从 JSON 中获取列。使用DStreams 的 Spark Streaming 允许进行以下操作
spark.read.json(spark.createDataset(jsons))
其中jsons 是RDD[String]。
在 Spark Structured Streaming 的情况下类似的方法
df.sparkSession.read.json(jsons)
(jsons 是 DataSet[String])
导致以下异常
Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;
我假设read 触发执行而不是start,但是有没有办法绕过这个?
【问题讨论】:
标签: apache-spark spark-streaming spark-structured-streaming