【发布时间】:2017-10-26 23:14:21
【问题描述】:
我有一堆按 Hive 分区模式 (s3://csvfiles/Y=2017/M=10/D=12/H=23/M=12/...) 排列在文件夹中的 csv 文件。
所以,我在每个“小时”文件夹中都有几个 csv 格式的文件。 我想将特定时间的所有文件组合成一个 ORC 格式的文件,将其写入不同的根文件夹,但保持“日期”模式。 所以结果会是这样的:
s3://orcfilesY=2017/M=10/D=12/H=23/singlefile.orc
Spark 可以做到吗?
谢谢
【问题讨论】:
标签: apache-spark pyspark