【问题标题】:Join and sort Dataset Hadoop加入和排序数据集 Hadoop
【发布时间】:2015-10-21 13:05:33
【问题描述】:

我正在使用 mapreduce(我有 2 个数据集 KDD 和 DARPAA)在 Hadoop 上开展项目,我正在寻找可以在一个文件中对这些数据集进行分组和排序的算法。

这两个数据集的格式如下:

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有任何重复并删除重复行,其次我想将@Attribute 和@Data 组合在一起。

【问题讨论】:

  • 您可以选择在同一个作业中对不同的映射器类进行多个输入,然后我们可以有一个 reducer,其中来自两个映射器的两个文件可以合并
  • 谢谢,但我已经找到了合并这些数据集的算法,但我喜欢按正确的顺序对它们进行排序“属性包含 2 个文件的属性”@data 包含 2 个数据集的数据,如果你能帮忙的话我如何检查重复并删除它们
  • 您可以在代码中使用 hashmap 来删除重复项
  • 如何对数据进行排序??
  • 数据在shuffle和sort阶段从mapper移动到reducer时会被排序...

标签: sorting hadoop merge mapreduce dataset


【解决方案1】:
Map Side:

必须编写两个映射器,一个用于 KDD,另一个用于 DARPAA。

获取 KDD 和 DARPAA 通用的值。

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送。

根据各自的映射器使用@data 或@attribute 附加输入。

Reduce Side:

遍历映射器的输出键。

比较附加字符串(KDD 或 DARPAA)附带的值并执行必要的逻辑。

【讨论】:

  • 感谢您的重播,但我在@data 和@@attribute 之间没有通信点,每个文件都有自己的数据和属性,我该如何解决?你能发给我一个带有 2 个映射器的算法,它可以像我的问题一样做同样的工作吗?谢谢兄弟
  • 我的意思是 KDD 和 DARPAA 之间的共同点?....或者如果这两者之间没有共同点,您只想将一个附加到另一个下方?
  • darpaa KDD相同文件结构@@attribute ---------- ----------@@data--------的共同点-- --------- 我只想将它们的属性和数据组合在一起!我发现算法我融合了两个文件,但输出文件不是结构化的
  • @@attribute 'class' {'normal', 'anomaly'} --------------------------- --------- ------------------------------------ @@data 0, tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00, 0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,正常...... --- ---------- @@attribute 类 {NOTSSH,SSH} -------------- ----- --------------------- @@data 73,73,73,0,160,160,160,0,0,0,0,0,0,0,0,0,595, 17,1,73,1,160,NOTSSH
  • 我想要这样的输出文件@@attribute 'class' {'normal', 'anomaly'} @@attribute class {NOTSSH,SSH} ......... ... ...... @@data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,‌​1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05, 0.00,正常 73,73,73,0,160,160,160,0,0,0,0,0,0,0,0,0,595,17,1,73,1,160,NOTSSH
猜你喜欢
  • 1970-01-01
  • 2012-08-01
  • 2020-03-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-02-28
相关资源
最近更新 更多