inux下安装使用

1 单机

1)jdk安装

2)安装包上传到服务器,解压

注意:1. 把mysql驱动拷贝到lib目录下

         2. 将本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle,整个上传到linux的家目录/home/atguigu/下

3)运行数据库资源库中的转换:

[[email protected] data-integration]$./pan.sh -rep=my_repo -user=admin -pass=admin -trans=stu1tostu2 -dir=/

参数说明:

-rep         资源库名称

-user        资源库用户名

-pass        资源库密码

-trans       要启动的转换名称

-dir         目录(不要忘了前缀 /)

Linux下安装使用

 

4)运行资源库里的作业:

记得把作业里的转换变成资源库中的资源

[[email protected] data-integration]$./kitchen.sh -rep=repo1 -user=admin -pass=admin -job=jobDemo1 -logfile=./logs/log.txt -dir=/

参数说明:

-rep – 资源库名

-user – 资源库用户名

-pass – 资源库密码

-job – job名

-dir – job路径

-logfile – 日志目录

2 集群模式(了解)

1) 准备三台服务器,hadoop102作为Kettle主服务器,服务器端口号为8080,hadoop103和hadoop104作为两个子服务器,端口号分别为8081和8082。

2) 安装部署jdk

3) hadoop完全分布式环境搭建,并启动进程(因为要使用hdfs)

4) 上传解压kettle的安装包

5) 进到/opt/module/data-integration/pwd目录,修改配置文件

修改主服务器配置文件carte-config-master-8080.xml

<slaveserver>

    <name>master</name>

    <hostname>hadoop102</hostname>

    <port>8080</port>

    <master>Y</master>

    <username>cluster</username>

    <password>cluster</password>

  </slaveserver>

修改从服务器配置文件carte-config-8081.xml

  <masters>

    <slaveserver>

      <name>master</name>

      <hostname>hadoop102</hostname>

      <port>8080</port>

      <username>cluster</username>

      <password>cluster</password>

      <master>Y</master>

    </slaveserver>

  </masters>

  <report_to_masters>Y</report_to_masters>

  <slaveserver>

    <name>slave1</name>

    <hostname>hadoop103</hostname>

    <port>8081</port>

    <username>cluster</username>

    <password>cluster</password>

    <master>N</master>

  </slaveserver>

修改从配置文件carte-config-8082.xml

<masters>

    <slaveserver>

      <name>master</name>

      <hostname>hadoop102</hostname>

      <port>8080</port>

      <username>cluster</username>

      <password>cluster</password>

      <master>Y</master>

    </slaveserver>

  </masters>

  <report_to_masters>Y</report_to_masters>

  <slaveserver>

    <name>slave2</name>

    <hostname>hadoop104</hostname>

    <port>8082</port>

    <username>cluster</username>

    <password>cluster</password>

    <master>N</master>

  </slaveserver>

6) 分发整个kettle的安装目录,xsync data-integration

7) 启动相关进程,在hadoop102,hadoop103,hadoop104上执行

[[email protected] data-integration]$./carte.sh hadoop102 8080

[[email protected] data-integration]$./carte.sh hadoop103 8081

[[email protected] data-integration]$./carte.sh hadoop104 8082

8) 访问web页面

http://hadoop102:8080

9) 案例:读取hive中的emp表,根据id进行排序,并将结果输出到hdfs上

注意:因为涉及到hive和hbase的读写,需要修改相关配置文件。

修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties,设置active.hadoop.configuration=hdp26,并将如下配置文件拷贝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下

Linux下安装使用

 (1) 创建转换,编辑步骤,填好相关配置

Linux下安装使用

大数据培训机构

(2) 创建子服务器,填写相关配置,跟集群上的配置相同

Linux下安装使用

Linux下安装使用

 

Linux下安装使用

Linux下安装使用

 

(3) 创建集群schema,选中上一步的几个服务器

Linux下安装使用

 

(4) 对于要在集群上执行的步骤,右键选择集群,选中上一步创建的集群schema

Linux下安装使用

(5) 创建Run Configuration,选择集群模式,直接运行

Linux下安装使用

 

Linux下安装使用

Linux下安装使用

大数据培训

相关文章:

  • 2022-12-23
  • 2021-12-03
  • 2021-11-20
  • 2021-11-29
  • 2021-06-27
  • 2021-11-12
  • 2021-05-02
  • 2022-01-23
猜你喜欢
  • 2021-09-30
  • 2021-09-17
  • 2021-06-12
  • 2021-04-30
  • 2021-09-29
  • 2021-05-30
  • 2022-12-23
相关资源
相似解决方案