【问题标题】:Spark Structured Streaming using python and Kafka giving error使用 python 和 Kafka 的 Spark Structured Streaming 给出错误
【发布时间】:2021-04-03 16:37:28
【问题描述】:

尝试为 kafka 启动 readStream 时出现以下错误,我的 Kafka 已启动并正在运行,我对其进行了多次测试以确保它正在处理。 Kafka 主题也已创建。

'''

kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "mytopic") \
        .option("startingOffsets", "earliest") \
        .load()

'''

Traceback(最近一次调用最后一次): 文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”,第 18 行,在 kafka_df = spark.readStream
文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”,第 420 行,加载中 返回 self._df(self._jreader.load()) 调用中的文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”,第 1304 行 return_value = get_return_value( 文件“C:\Users\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”,第 134 行,deco raise_from(已转换) 文件“”,第 3 行,在 raise_from pyspark.sql.utils.AnalysisException:找不到数据源:kafka。请按照《Structured Streaming + Kafka Integration Guide》的部署部分部署应用。;

【问题讨论】:

  • 您需要运行或打包并构建 KAFKA 的依赖项

标签: python pyspark apache-kafka apache-kafka-streams spark-structured-streaming


【解决方案1】:

您需要导入 kafka 依赖项才能运行它!对于 pyspark,您可以下载 jar 并将其放入 spark/jars 目录或在 sparkSession 初始配置中导入依赖项。 请关注这个kafka-structured streaming docs

希望对你有所帮助,有什么可以问我的,谢谢!

【讨论】:

  • 您能否详细说明一下。这是我的 SparkSession,其中包含 jar 详细信息: if name == "main": spark = SparkSession \ .builder \ .master("local[3]" ) \ .config("spark.streaming.stopGracefullOnShutdown","true") \ .config("spark.jar.packages","org.apache.spark:spark-sql-kafka-0-10_2.12:3.0. 1") \ .getOrCreate()
  • 我尝试将代码放在这里,但它不适合,所以我将发布我使用的 github 链接:github.com/indiacloudtv/structuredstreamingkafkapyspark/blob/…
猜你喜欢
  • 1970-01-01
  • 2019-07-30
  • 2019-02-19
  • 2021-05-22
  • 2020-07-25
  • 2017-12-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多