Spark，从 Kafka 流读取失败 AnalysisException [重复]答案

【问题标题】：Spark, read from Kafka stream failing AnalysisException [duplicate]Spark，从 Kafka 流读取失败 AnalysisException [重复]
【发布时间】：2020-04-06 21:02:33
【问题描述】：

我在本地机器上使用 Spark 2.4.5、Kafka 2.3.1。

我能够使用引导服务器配置“localhost:9092”在 Kafka 上生成和使用消息

在尝试使用 spark 流 API 设置阅读器时，我收到一个错误，因为

异常消息：Py4JJavaError：调用时发生错误 o166.load。：org.apache.spark.sql.AnalysisException：找不到数据来源：卡夫卡。请按照以下要求部署应用程序《Structured Streaming + Kafka Integration》部署部分指南”。；

我正在尝试执行的 Spark 代码：

df1 = spark.readStream.format("kafka")\
 .option("kafka.bootstrap.servers", "localhost:9092")\
 .option("subscribe", "topic1")\
 .load()

如何检查 Spark 是否有数据源“Kafka”？如果没有那怎么添加呢？

【问题讨论】：

标签： apache-spark apache-kafka spark-structured-streaming

【解决方案1】：

您需要使用--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.5 选项启动spark-shell 或spark-submit 以将相应的包拉入类路径。请参阅异常中提到的documentation。

【讨论】：