【问题标题】:Spark read file into a dataframeSpark将文件读入数据框
【发布时间】:2021-04-17 04:24:34
【问题描述】:

当我尝试读取以下文件时,我得到了一条损坏的记录。

我正在尝试使用SqlContext.read.Json(file location),但得到_corrupt_record:string。有人可以帮我吗?在下面为我要读取的文件添加了数据集的头部。

感谢任何帮助。

【问题讨论】:

    标签: json apache-spark pyspark apache-spark-sql


    【解决方案1】:

    要读取多行json,需要传递一个选项multiLine = True

    df = spark.read.json('/path/to/json', multiLine=True)
    

    并且您应该考虑使用 Spark Session 来读取 json,而不是使用已弃用的 SQL 上下文。

    【讨论】:

      【解决方案2】:

      对于想在 scala 中做的人,你可以这样做:

      val df = spark.read.option("multiline",true)json("/path/to/json")
      

      【讨论】:

        【解决方案3】:
        val DB_DETAILS_FILE_PATH = "file:///C:/Users/sshashank/Desktop/db_details.json"
        var dbDetailsDF = spark.read
                          .option("multiline", "true")
                          .json(DB_DETAILS_FILE_PATH)
        

        【讨论】:

          猜你喜欢
          • 2021-05-23
          • 1970-01-01
          • 2017-07-27
          • 1970-01-01
          • 2021-09-29
          • 1970-01-01
          • 2019-07-02
          • 2018-07-10
          • 1970-01-01
          相关资源
          最近更新 更多