Rumen 的样本输出或 Gridmix 的样本输入答案

【问题标题】：Sample outputs of Rumen or Sample input to GridmixRumen 的样本输出或 Gridmix 的样本输入
【发布时间】：2018-03-30 17:35:23
【问题描述】：

我对 Hadoop 等大数据工具的使用非常陌生。我想在 Yarn/或 Yarn Simulator 上执行一个公开可用的集群跟踪 (https://github.com/google/cluster-data)。

一种方法是通过 Gridmix 将输入输入 Yarn。

Gridmix (https://hadoop.apache.org/docs/r2.8.3/hadoop-gridmix/GridMix.html) 接受输入的格式基本上是 Rumen 的输出。 Rumen (https://hadoop.apache.org/docs/r2.8.3/hadoop-rumen/Rumen.html) 将从 map-reduce 集群生成的 JobHistory 日志作为输入。

google 跟踪不是 map-reduce 跟踪。但是，我想知道是否可以将其转换为与 Grdimix 作为输入的格式相同的格式，然后我可以使用 Grdmix。

这里有人能指出 Gridmix 的输入格式（或 Rumen 的输出）吗？

或者建议我另一种方法来做我想做的事？

谢谢。

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

Rumen 的输出包含两个文件： 1.作业跟踪文件， 2.集群拓扑文件；

这两个文件都是json格式，job-trace文件格式如下：

{
  "jobID" : "job_1546949851050_53464",
  "user" : "mammut",
  "computonsPerMapInputByte" : -1,
  "computonsPerMapOutputByte" : -1,
  "computonsPerReduceInputByte" : -1,
  "computonsPerReduceOutputByte" : -1,
  "submitTime" : 1551801585141,
  "launchTime" : 1551801594958,
  "finishTime" : 1551801630228,
  "heapMegabytes" : 200,
  "totalMaps" : 2,
  "totalReduces" : 1,
  "outcome" : "SUCCESS",
  "jobtype" : "JAVA",
  "priority" : "NORMAL",
  "directDependantJobs" : [ ],
  "mapTasks" : [ {
    "inputBytes" : 25599927,
    ...}]
  ...
}

而且，集群拓扑如下：

{
  "name" : "<root>",
  "children" : [ {
    "name" : "rack-01",
    "children" : [ {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    } ]
  }, {
    "name" : "default-rack",
    "children" : [ {
      "name" : "x",
      "children" : null
    } ]
  } ]
}

【讨论】：