【问题标题】:How to split a JSON array to multiple JSONs using scala spark如何使用 scala spark 将 JSON 数组拆分为多个 JSON
【发布时间】:2021-09-03 03:46:57
【问题描述】:

我有一个数组 JSON 格式如下

{
  "marks": [
    {
      "subject": "Maths",
      "mark": "80"
    },
    {
      "subject": "Physics",
      "mark": "70"
    },
    {
      "subject": "Chemistry",
      "mark": "60"
    }
  ]
}

我需要将每个数组对象拆分为单独的 JSON 文件。有什么办法可以在 spark shell 中做到这一点。

【问题讨论】:

    标签: json scala apache-spark spark-shell


    【解决方案1】:

    您可以分解结构的标记数组,添加 ID 列,并写入由唯一 ID 列分区的 JSON 文件。

    df.selectExpr("inline(marks)")
      .withColumn("id", monotonically_increasing_id)
      .repartition(col("id"))
      .write
      .partitionBy("id")
      .json("output")
    

    【讨论】:

      猜你喜欢
      • 2020-12-06
      • 2020-04-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-12
      • 2023-03-25
      • 1970-01-01
      相关资源
      最近更新 更多