【发布时间】:2014-10-08 06:40:31
【问题描述】:
我正在使用来自 https://github.com/alexholmes/json-mapreduce 的代码将多行 json 文件读入 RDD。
var data = sc.newAPIHadoopFile(
filepath,
classOf[MultiLineJsonInputFormat],
classOf[LongWritable],
classOf[Text],
conf)
我打印了前 n 个元素以检查它是否正常工作。
data.take(n).foreach { p =>
val (line, json) = p
println
println(new JSONObject(json.toString).toString(4))
}
但是,当我尝试查看数据时,take 返回的数组似乎不正确。
而不是返回表单的数组
[ data[0], data[1], ... data[n] ]
它的形式是
[ data[n], data[n], ... data[n] ]
这是我创建的 RDD 的问题,还是我尝试打印它的方式的问题?
【问题讨论】:
标签: json scala hadoop apache-spark