【发布时间】:2013-10-09 04:10:17
【问题描述】:
我想在一个列上对一个大文件进行排序。排序应该是稳定的。目前,我正在使用 unix 排序(带有 -s 选项)。但这很慢。在 hdfs 中是否有众所周知的例程来执行此操作?
我试过 PIG 的 orderby 但不稳定。
【问题讨论】:
-
文件有多大(GB、TB、PB)?显示它的一些行(或行)。在上面运行
sort -s有多慢(几小时,几天?)?
标签: linux sorting hadoop apache-pig bigdata