【问题标题】:POC: Cloudera Impala + HDFS + HBase on separate clusterPOC:Cloudera Impala + HDFS + HBase 在单独的集群上
【发布时间】:2014-10-29 15:52:45
【问题描述】:

我正在处理大数据系统架构。我知道 Impala 可以对存储在 HDFS/HBase 集群中的数据执行查询。

但是,如果我有一个 HDFS 集群和另一个用于保存 HBase 数据的集群,该怎么办。 Impala 是否能够执行合并来自两个集群的数据的查询?

【问题讨论】:

  • “另一个集群”是指有一个单独的集群,它带有 HBase它自己的 HDFS?
  • 不,只是一个 HBase 集群。

标签: hbase hdfs cloudera impala


【解决方案1】:

首先 HBase 将其数据存储在 HDFS 中。所以我确信你的 HBase 集群上有 HDFS。

当 impala 向 HDFS 读取/写入数据时,它直接访问操作系统级别的块。这就是为什么黑斑羚在这方面如此之快。当 impala 正在读取 HBase 数据时,它正在成为使用其 api 的 HBase 客户端,而不是像其他方式那样直接从磁盘读取 HBase 数据。

因此,HBase 不必安装在与 Impala 相同的集群上。但是,集群需要能够相互访问。

【讨论】:

    【解决方案2】:

    我认为您还需要在 Hbase 集群上安装 Impala。在两个集群之间连接数据可能不是一个好主意,因为您会遇到延迟问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多