【发布时间】:2016-02-08 07:58:49
【问题描述】:
鉴于以下 sn-p(Spark 版本:1.5.2):
rdd.toDF().write.mode(SaveMode.Append).parquet(pathToStorage)
将 RDD 数据保存到扁平 Parquet 文件中,我希望我的存储具有如下结构:
country/
year/
yearmonth/
yearmonthday/
数据本身包含一个国家列和一个时间戳,所以我从this method 开始。但是,由于我的数据中只有一个时间戳,因此我无法按年/年月/年月日对整个事物进行分区,因为它们本身并不是列...
this solution 看起来还不错,只是我无法使其适应 Parquet 文件...
有什么想法吗?
【问题讨论】:
标签: scala apache-spark rdd parquet