【问题标题】:to.JSON() in Spark Streaming using pyspark使用 pyspark 在 Spark Streaming 中的 to.JSON()
【发布时间】:2025-12-23 09:10:12
【问题描述】:

我使用toJSON()方法在spark Streaming的transform()函数中将DataFrame转换为RDD of json文档。

我正在使用pyspark 进行如下编码:

def process(rdd):
  rddDataframe = sqlContext.createDataFrame(rdd)
  rddback = rddDataFrame.toJSON()
return rdd

dstream_test = dstream_in.transform(lambda rdd: process(rdd))

但我收到以下错误:

 UnpicklingError: invalid load key, '{'

请帮我解决这个问题。

【问题讨论】:

  • 您的代码没有意义。能否请您提供数据样本?

标签: json pyspark pickle spark-streaming spark-dataframe


【解决方案1】:

不要将 rdd 传递给函数,将函数传递给你的 rdd。

为每一行定义你的转换,然后发送它

def transform(row):
    ....

your_rdd = your_rdd.map(transform)

【讨论】: