Spark将文件读入数据框答案

【问题标题】：Spark read file into a dataframeSpark将文件读入数据框
【发布时间】：2021-04-17 04:24:34
【问题描述】：

当我尝试读取以下文件时，我得到了一条损坏的记录。

我正在尝试使用SqlContext.read.Json(file location)，但得到_corrupt_record:string。有人可以帮我吗？在下面为我要读取的文件添加了数据集的头部。

感谢任何帮助。

【问题讨论】：

标签： json apache-spark pyspark apache-spark-sql

【解决方案1】：

要读取多行json，需要传递一个选项multiLine = True：

df = spark.read.json('/path/to/json', multiLine=True)

并且您应该考虑使用 Spark Session 来读取 json，而不是使用已弃用的 SQL 上下文。

【讨论】：

【解决方案2】：

对于想在 scala 中做的人，你可以这样做：

val df = spark.read.option("multiline",true)json("/path/to/json")

【讨论】：

【解决方案3】：

val DB_DETAILS_FILE_PATH = "file:///C:/Users/sshashank/Desktop/db_details.json"
var dbDetailsDF = spark.read
                  .option("multiline", "true")
                  .json(DB_DETAILS_FILE_PATH)

【讨论】：