【发布时间】:2016-10-02 08:57:12
【问题描述】:
我有一组数据,我在“type”列上运行了多存储命令,现在我在 hdfs 中有这些路径:“/output/type1/”、“/输出/type2/”、“/output/type3/”等。
现在, 每天我在“类型”列上运行一个带有多存储命令的脚本,以生成“/tmp/type1/”、“/tmp/type2/”、“/ tmp/type3/" 等 (此处的类型可以是
由于 Pig 不允许我提供现有目录的输出路径,所以我每天运行的脚本是 /tmp/。 有没有办法在正确的“类型”子目录下将 /tmp/ 与 /output/ 结合起来?
预计 /output/type1/ 下的 /tmp/type1/file 为 /output/type1/file 等等。这样我可以删除 /tmp 并再次运行脚本。
感谢任何帮助。 提前致谢。
【问题讨论】:
-
您如何知道要存储到哪种类型的目录?
-
类型目录是通过在'type'列上使用multistorage命令动态创建的
标签: directory append apache-pig subdirectory multistore