【发布时间】:2016-07-18 01:30:14
【问题描述】:
我正在尝试合并大量小文件(200k+),并想出了以下超级简单的 Pig 代码:
Files = LOAD 'hdfs/input/path' using PigStorage();
store Files into 'hdfs/output/path' using PigStorage();
Pig 完成合并后,有没有办法删除输入文件?我想检查文件是否已写入并且不为空(即 0 字节)。我不能简单地删除输入路径中的所有内容,因为在此期间可能已插入新文件,因此理想情况下我只会删除 Files 变量中的文件。
【问题讨论】:
标签: apache-pig hdfs