【发布时间】:2018-02-10 18:38:39
【问题描述】:
我正在尝试使用 Spark 结构化流从 Kafka 主题中读取 XML 数据。
我尝试使用 Databricks spark-xml 包,但我收到一条错误消息,指出此包不支持流式读取。有什么方法可以使用结构化流从 Kafka 主题中提取 XML 数据?
我当前的代码:
df = spark \
.readStream \
.format("kafka") \
.format('com.databricks.spark.xml') \
.options(rowTag="MainElement")\
.option("kafka.bootstrap.servers", "localhost:9092") \
.option(subscribeType, "test") \
.load()
错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o33.load.
: java.lang.UnsupportedOperationException: Data source com.databricks.spark.xml does not support streamed reading
at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:234)
【问题讨论】:
标签: apache-spark xml-parsing pyspark-sql spark-structured-streaming