【发布时间】:2015-10-21 13:05:33
【问题描述】:
我正在使用 mapreduce(我有 2 个数据集 KDD 和 DARPAA)在 Hadoop 上开展项目,我正在寻找可以在一个文件中对这些数据集进行分组和排序的算法。
这两个数据集的格式如下:
@attribute 'urgent' real --------------
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0
我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有任何重复并删除重复行,其次我想将@Attribute 和@Data 组合在一起。
【问题讨论】:
-
您可以选择在同一个作业中对不同的映射器类进行多个输入,然后我们可以有一个 reducer,其中来自两个映射器的两个文件可以合并
-
谢谢,但我已经找到了合并这些数据集的算法,但我喜欢按正确的顺序对它们进行排序“属性包含 2 个文件的属性”@data 包含 2 个数据集的数据,如果你能帮忙的话我如何检查重复并删除它们
-
您可以在代码中使用 hashmap 来删除重复项
-
如何对数据进行排序??
-
数据在shuffle和sort阶段从mapper移动到reducer时会被排序...
标签: sorting hadoop merge mapreduce dataset