【发布时间】:2017-12-22 06:30:52
【问题描述】:
我是新来的火花。我有一些json 数据作为HttpResponse 提供。我需要将这些数据存储在配置单元表中。每个HttpGet 请求都会返回一个json,它将是表中的一行。因此,我必须将单行作为文件写入配置单元表目录中。
但是我觉得有太多的小文件会降低速度和效率。那么有没有一种方法可以递归地将新行添加到Dataframe 并一次将其写入配置单元表目录。我觉得这也会减少我的 spark 代码的运行时间。
例子:
for(i <- 1 to 10){
newDF = hiveContext.read.json("path")
df = df.union(newDF)
}
df.write()
我了解数据帧是不可变的。有没有办法做到这一点?
任何帮助将不胜感激。谢谢。
【问题讨论】:
标签: scala hadoop apache-spark recursion dataframe