【发布时间】:2021-04-17 04:24:34
【问题描述】:
当我尝试读取以下文件时,我得到了一条损坏的记录。
我正在尝试使用SqlContext.read.Json(file location),但得到_corrupt_record:string。有人可以帮我吗?在下面为我要读取的文件添加了数据集的头部。
感谢任何帮助。
【问题讨论】:
标签: json apache-spark pyspark apache-spark-sql
当我尝试读取以下文件时,我得到了一条损坏的记录。
我正在尝试使用SqlContext.read.Json(file location),但得到_corrupt_record:string。有人可以帮我吗?在下面为我要读取的文件添加了数据集的头部。
感谢任何帮助。
【问题讨论】:
标签: json apache-spark pyspark apache-spark-sql
要读取多行json,需要传递一个选项multiLine = True:
df = spark.read.json('/path/to/json', multiLine=True)
并且您应该考虑使用 Spark Session 来读取 json,而不是使用已弃用的 SQL 上下文。
【讨论】:
对于想在 scala 中做的人,你可以这样做:
val df = spark.read.option("multiline",true)json("/path/to/json")
【讨论】:
val DB_DETAILS_FILE_PATH = "file:///C:/Users/sshashank/Desktop/db_details.json"
var dbDetailsDF = spark.read
.option("multiline", "true")
.json(DB_DETAILS_FILE_PATH)
【讨论】: