Spark结构化流中的Avro格式反序列化

【问题标题】：Avro format deserialization in Spark structured streamSpark结构化流中的Avro格式反序列化
【发布时间】：2018-07-20 08:33:56
【问题描述】：

我正在使用 Spark Structured Streaming，如上所述 this page.

我从 Kafka 主题收到正确的消息，但值为 Avro 格式。有什么方法可以反序列化 Avro 记录（类似于 KafkaAvroDeserializer 方法）？

【问题讨论】：

消息中有架构吗？或者它是由只有模式 ID 的 Confluent 序列化程序生成的？
我正在使用模式注册表。
您不使用 Kafka Streams 是否有特定原因？此外，正如 Spark 文档所说，您需要反序列化来自 Dataframe 操作的值，因为始终使用 ByteDeserializer spark.apache.org/docs/latest/…
我发现的几个帖子只使用了普通的 Spark Streaming。 stackoverflow.com/questions/41193764/…
看看这个答案stackoverflow.com/questions/48882723/…希望它有帮助

【解决方案1】：

火花 >= 2.4

您可以使用spark-avro 库中的from_avro 函数。

import org.apache.spark.sql.avro._

val schema: String = ???
df.withColumn("value", from_avro($"value", schema))

火花

拨打udfvalue

val df = spark
  .readStream
  .format("kafka")
  ...
  .load()

df.withColumn("value", decodeUdf($"value"))

【讨论】：