加入和排序数据集 Hadoop答案

【问题标题】：Join and sort Dataset Hadoop加入和排序数据集 Hadoop
【发布时间】：2015-10-21 13:05:33
【问题描述】：

我正在使用 mapreduce（我有 2 个数据集 KDD 和 DARPAA）在 Hadoop 上开展项目，我正在寻找可以在一个文件中对这些数据集进行分组和排序的算法。

这两个数据集的格式如下：

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中，首先我想检查两个文件中是否有任何重复并删除重复行，其次我想将@Attribute 和@Data 组合在一起。

【问题讨论】：

您可以选择在同一个作业中对不同的映射器类进行多个输入，然后我们可以有一个 reducer，其中来自两个映射器的两个文件可以合并
谢谢，但我已经找到了合并这些数据集的算法，但我喜欢按正确的顺序对它们进行排序“属性包含 2 个文件的属性”@data 包含 2 个数据集的数据，如果你能帮忙的话我如何检查重复并删除它们
您可以在代码中使用 hashmap 来删除重复项
如何对数据进行排序？？
数据在shuffle和sort阶段从mapper移动到reducer时会被排序...

【解决方案1】：

Map Side:

必须编写两个映射器，一个用于 KDD，另一个用于 DARPAA。

获取 KDD 和 DARPAA 通用的值。

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送。

根据各自的映射器使用@data 或@attribute 附加输入。

Reduce Side:

遍历映射器的输出键。

比较附加字符串（KDD 或 DARPAA）附带的值并执行必要的逻辑。

【讨论】：

感谢您的重播，但我在@data 和@@attribute 之间没有通信点，每个文件都有自己的数据和属性，我该如何解决？你能发给我一个带有 2 个映射器的算法，它可以像我的问题一样做同样的工作吗？谢谢兄弟
我的意思是 KDD 和 DARPAA 之间的共同点？....或者如果这两者之间没有共同点，您只想将一个附加到另一个下方？
darpaa KDD相同文件结构@@attribute ---------- ----------@@data--------的共同点-- --------- 我只想将它们的属性和数据组合在一起！我发现算法我融合了两个文件，但输出文件不是结构化的
@@attribute 'class' {'normal', 'anomaly'} --------------------------- --------- ------------------------------------ @@data 0, tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00, 0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,正常...... --- ---------- @@attribute 类 {NOTSSH,SSH} -------------- ----- --------------------- @@data 73,73,73,0,160,160,160,0,0,0,0,0,0,0,0,0,595, 17,1,73,1,160,NOTSSH
我想要这样的输出文件@@attribute 'class' {'normal', 'anomaly'} @@attribute class {NOTSSH,SSH} ......... ... ...... @@data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,‌1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05, 0.00,正常 73,73,73,0,160,160,160,0,0,0,0,0,0,0,0,0,595,17,1,73,1,160,NOTSSH