前言

       本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里

一,正文

1.在转换里拖入big data/hadoop file output

     新建hadoop cluster连接

     从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml

     覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26中的4个同名文件。Kettle将数据导入导Hive2

2.填写配置

Kettle将数据导入导Hive2

连接信息只要hadoop file system connection连对就行

Kettle将数据导入导Hive2

再从脚本里托人SQL

Kettle将数据导入导Hive2

在文件里输入路径/文件名

Kettle将数据导入导Hive2内容里选择分隔符,是不是显示字段名(头部),压缩格式(orc,snappy)

Kettle将数据导入导Hive2 在生气了语句里,新建数据库连接,写入sql语句

Kettle将数据导入导Hive2 

相关文章:

  • 2021-05-19
  • 2021-11-04
  • 2021-10-20
  • 2021-08-05
  • 2021-03-27
  • 2022-12-23
  • 2021-11-02
  • 2022-01-20
猜你喜欢
  • 2021-09-08
  • 2022-12-23
  • 2021-11-29
  • 2021-09-13
  • 2021-04-20
  • 2022-12-23
  • 2021-10-06
相关资源
相似解决方案