【发布时间】:2015-04-27 17:25:23
【问题描述】:
我有一个像这样的json:
{"name":"Yin", "address":[{"city":"Columbus","state":"Ohio"},{"city":"Columbus","state":"Ohio"}]}
{"name":"Michael", "address":[{"city":null, "state":"California"},{"city":null, "state":"California"}]}
这里的地址是一个数组,如果我使用sqlContext.jsonfile,我会在模式 rdd 中获取数据,如下所示:
[Yin , [(Columbus , Ohio) , (Columbus , Ohio)]
[Micheal , [(null, California) , (null, California)]
我想分解存在的数组,并希望模式 rdd 中的数据格式如下:
[Yin, Columbus, Ohio]
[Yin, Columbus, Ohio]
[Micheal, null, California]
[Micheal, null, California]
我正在使用 Spark SQL
【问题讨论】:
标签: json scala apache-spark-sql