【问题标题】:PDI jobs not seen as Mapreduce jobs in Resource Manager or Job History serverPDI 作业在资源管理器或作业历史服务器中不被视为 Mapreduce 作业
【发布时间】:2015-11-06 15:30:34
【问题描述】:

我正在使用 Pentaho 5.4 和 EMR 3.4

当我在 Pentaho 中执行转换以将数据从 Oracle DB 复制到 EMR 上的 HDFS 时,我在 Hadoop(EMR) 集群的资源管理器中看不到任何 MR 作业。

我应该将它们视为 MR 作业还是 pentaho 只是复制而不创建任何 MR 作业..?

pentaho 什么时候会使用 Mapreduce 处理数据?

【问题讨论】:

    标签: hadoop mapreduce pentaho elastic-map-reduce data-integration


    【解决方案1】:

    不确定您是否已经解决了这个问题,但您需要在您的 KJB 中使用 Pentaho MapReduce 组件:Pentaho MapReduce

    然后您可以定义 Mapper、Combiner 和 Reducer 转换以及 NamedCluster (XML) 配置,您可以在其中指定 JobTracker 主机、端口等。Pentaho 所做的是将其引擎复制到集群中的每个节点(默认在 /opt/pentaho/) 并以您在 Spoon 中指定的用户身份提交作业,然后您将能够在作业历史记录中看到它们。

    在您的场景中,听起来您正在使用数据库连接和不同的组件来提取 HDFS 文件输出。

    【讨论】:

      猜你喜欢
      • 2017-08-10
      • 1970-01-01
      • 2021-09-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-12-29
      • 1970-01-01
      相关资源
      最近更新 更多