【发布时间】:2017-03-03 14:57:02
【问题描述】:
我有一个包含多个 json 记录的序列文件。我想将每个 json 记录发送到一个函数。如何一次提取一条json记录?
【问题讨论】:
标签: json scala hadoop apache-spark
我有一个包含多个 json 记录的序列文件。我想将每个 json 记录发送到一个函数。如何一次提取一条json记录?
【问题讨论】:
标签: json scala hadoop apache-spark
您可以将序列文件的内容读取到 RDD[String] 并将其转换为 Spark Dataframe。
val seqFileContent = sc
.sequenceFile[LongWritable, BytesWritable](inputFilename)
.map(x => new String(x._2.getBytes))
val dataframeFromJson = sqlContext.read.json(seqFileContent)
【讨论】: