【发布时间】:2017-05-02 14:29:14
【问题描述】:
我在 parquet 文件中有数据,如下目录中
input/data/id1/files
input/data/id2/files
input/data/id3/files
如何以每个 id 作为文件夹名称读取这些数据?在阅读并进行一些处理之后,如何将输出存储在与输入路径相同的相似路径中。
/outout/data/id1/outputpaequet
/outout/data/id2/outputpaequet
/outout/data/id3/outputpaequet
【问题讨论】:
标签: scala apache-spark spark-dataframe parquet