使用 python 和 Kafka 的 Spark Structured Streaming 给出错误答案

【问题标题】：Spark Structured Streaming using python and Kafka giving error使用 python 和 Kafka 的 Spark Structured Streaming 给出错误
【发布时间】：2021-04-03 16:37:28
【问题描述】：

尝试为 kafka 启动 readStream 时出现以下错误，我的 Kafka 已启动并正在运行，我对其进行了多次测试以确保它正在处理。 Kafka 主题也已创建。

'''

kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "mytopic") \
        .option("startingOffsets", "earliest") \
        .load()

'''

Traceback（最近一次调用最后一次）：文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”，第 18 行，在 kafka_df = spark.readStream
文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”，第 420 行，加载中返回 self._df(self._jreader.load()) 调用中的文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”，第 1304 行 return_value = get_return_value( 文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”，第 134 行，deco raise_from（已转换）文件“”，第 3 行，在 raise_from pyspark.sql.utils.AnalysisException：找不到数据源：kafka。请按照《Structured Streaming + Kafka Integration Guide》的部署部分部署应用。;

【问题讨论】：

您需要运行或打包并构建 KAFKA 的依赖项

标签： python pyspark apache-kafka apache-kafka-streams spark-structured-streaming

【解决方案1】：

您需要导入 kafka 依赖项才能运行它！对于 pyspark，您可以下载 jar 并将其放入 spark/jars 目录或在 sparkSession 初始配置中导入依赖项。请关注这个kafka-structured streaming docs

希望对你有所帮助，有什么可以问我的，谢谢！

【讨论】：

您能否详细说明一下。这是我的 SparkSession，其中包含 jar 详细信息： if name == "main": spark = SparkSession \ .builder \ .master("local[3]" ) \ .config("spark.streaming.stopGracefullOnShutdown","true") \ .config("spark.jar.packages","org.apache.spark:spark-sql-kafka-0-10_2.12:3.0. 1") \ .getOrCreate()
我尝试将代码放在这里，但它不适合，所以我将发布我使用的 github 链接：github.com/indiacloudtv/structuredstreamingkafkapyspark/blob/…