【问题标题】:Sample outputs of Rumen or Sample input to GridmixRumen 的样本输出或 Gridmix 的样本输入
【发布时间】:2018-03-30 17:35:23
【问题描述】:

我对 Hadoop 等大数据工具的使用非常陌生。我想在 Yarn/或 Yarn Simulator 上执行一个公开可用的集群跟踪 (https://github.com/google/cluster-data)。

一种方法是通过 Gridmix 将输入输入 Yarn。

Gridmix (https://hadoop.apache.org/docs/r2.8.3/hadoop-gridmix/GridMix.html) 接受输入的格式基本上是 Rumen 的输出。 Rumen (https://hadoop.apache.org/docs/r2.8.3/hadoop-rumen/Rumen.html) 将从 map-reduce 集群生成的 JobHistory 日志作为输入。

google 跟踪不是 map-reduce 跟踪。但是,我想知道是否可以将其转换为与 Grdimix 作为输入的格式相同的格式,然后我可以使用 Grdmix。

这里有人能指出 Gridmix 的输入格式(或 Rumen 的输出)吗?

或者建议我另一种方法来做我想做的事?

谢谢。

【问题讨论】:

    标签: hadoop mapreduce


    【解决方案1】:

    Rumen 的输出包含两个文件: 1.作业跟踪文件, 2.集群拓扑文件;

    这两个文件都是json格式,job-trace文件格式如下:

    {
      "jobID" : "job_1546949851050_53464",
      "user" : "mammut",
      "computonsPerMapInputByte" : -1,
      "computonsPerMapOutputByte" : -1,
      "computonsPerReduceInputByte" : -1,
      "computonsPerReduceOutputByte" : -1,
      "submitTime" : 1551801585141,
      "launchTime" : 1551801594958,
      "finishTime" : 1551801630228,
      "heapMegabytes" : 200,
      "totalMaps" : 2,
      "totalReduces" : 1,
      "outcome" : "SUCCESS",
      "jobtype" : "JAVA",
      "priority" : "NORMAL",
      "directDependantJobs" : [ ],
      "mapTasks" : [ {
        "inputBytes" : 25599927,
        ...}]
      ...
    }
    

    而且,集群拓扑如下:

    {
      "name" : "<root>",
      "children" : [ {
        "name" : "rack-01",
        "children" : [ {
          "name" : "",
          "children" : null
        }, {
          "name" : "",
          "children" : null
        }, {
          "name" : "",
          "children" : null
        } ]
      }, {
        "name" : "default-rack",
        "children" : [ {
          "name" : "x",
          "children" : null
        } ]
      } ]
    }
    

    【讨论】:

      猜你喜欢
      • 2016-05-10
      • 2018-09-01
      • 2014-10-09
      • 2014-04-07
      • 2012-03-24
      • 2022-10-14
      • 2021-02-22
      • 2019-08-02
      • 1970-01-01
      相关资源
      最近更新 更多