现有公司使用的是Cloudera Manager平台。结点Cluster 1(CDH 5.7.0,Parcel)主要包含Hbase、HDFS、Hive、Hue、Kafka、Oozie、Sqoop 1 Client以及YARN(MR 2 Included 和Zookeeper)

Hive主要是通过HQL语句做查询,做复杂的查询,产生批处理语句,做离线查询,给YARN做运算。旧版的Hive只能做查询,不能增删改。新版本的Hive(3.x.x)是支持批量的增删改的

Hbase是做实时的查询,可能增删改。

Hive和Hbase都是查询和处理存储在HDFS上的数据。两者的使用场景不同,Hbase是实时查询,Hive是离线查询。Hbase本身就一个分布式的数据库NoSql数据库。Hive是Hadoop中的一个组件;作为一个数据仓库,将HDFS中结构化的数据映射为数据库中的表,这样的话,就省去了程序员为MapReduce编写程序的繁琐过程,提高了工作效率

Oozie是做调度

Sqoop是做抽取数据,即将关系型的数据库抽取到Hadoop中等非关系型数据库中,同理也可以将非关系型数据库中的抽到关系型数据库中。

大数据之 --- Cloudera Manager平台的理解

 

 

相关文章:

  • 2021-06-01
  • 2021-10-28
  • 2021-07-12
  • 2021-08-06
  • 2021-04-06
  • 2021-05-19
  • 2021-07-08
  • 2022-12-23
猜你喜欢
  • 2021-12-05
  • 2021-12-15
  • 2021-11-08
  • 2021-12-10
  • 2021-10-10
  • 2021-05-20
  • 2021-07-29
相关资源
相似解决方案