【发布时间】:2017-05-18 07:43:20
【问题描述】:
我正在使用 spark.read.json(RDD) 读取一个非常大的 json 格式的 RDD[String]。
这会导致 OutOfMemory 错误。我尝试增加执行程序/驱动程序内存。以及增加 num-Executors。
除了从 JSON 字符串的 RDD 创建 Dataframe 之外,还有其他方法吗?
【问题讨论】:
标签: apache-spark spark-dataframe
我正在使用 spark.read.json(RDD) 读取一个非常大的 json 格式的 RDD[String]。
这会导致 OutOfMemory 错误。我尝试增加执行程序/驱动程序内存。以及增加 num-Executors。
除了从 JSON 字符串的 RDD 创建 Dataframe 之外,还有其他方法吗?
【问题讨论】:
标签: apache-spark spark-dataframe
我认为您可以使用spark.createDataFrame(RDD) 方法,然后使用sql.functions 方法处理json 字符串,例如from_json(e: Column, schema: String, options: Map[String, String]): Column
【讨论】: