【问题标题】:Spark: Using read.json() to read a very large RDD[String]Spark:使用 read.json() 读取非常大的 RDD[String]
【发布时间】:2017-05-18 07:43:20
【问题描述】:

我正在使用 spark.read.json(RDD) 读取一个非常大的 json 格式的 RDD[String]。

这会导致 OutOfMemory 错误。我尝试增加执行程序/驱动程序内存。以及增加 num-Executors。

除了从 JSON 字符串的 RDD 创建 Dataframe 之外,还有其他方法吗?

【问题讨论】:

    标签: apache-spark spark-dataframe


    【解决方案1】:

    我认为您可以使用spark.createDataFrame(RDD) 方法,然后使用sql.functions 方法处理json 字符串,例如from_json(e: Column, schema: String, options: Map[String, String]): Column

    【讨论】:

      猜你喜欢
      • 2018-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多