【问题标题】:Mapreduce on hbasehbase 上的 Mapreduce
【发布时间】:2017-03-15 19:17:08
【问题描述】:

我正在执行一个 map reduce 作业,该作业正在处理来自 hbase 表的 30 行(MAP_INPUT_RECORDS=30)。该表有 11000 个区域,但在任何时候,一条记录将仅根据我们的区域拆分策略位于单个区域中(即单个记录不会在 2 个或更多区域中)。在这里,我在日志中获得了更多数量的映射器 65(TOTAL_LAUNCED_MAPS=65)。根据 hbase 文档,将为每个区域分配一个映射器。但就我而言,映射器的数量超过了区域。提出一些解决方案。提前致谢。

【问题讨论】:

    标签: mapreduce hbase


    【解决方案1】:

    您有 11000 个区域(表格区域),因此您最多可以拥有 11000 个映射器。

    您是否将表区域与 Hbase 的区域服务器混淆了。一个 Hbase 可以有 10 个区域服务器,托管在 hbase 上的一个表可以有 1000 个区域。每个区域服务器托管 100 个区域。

    TableInputFormat 根据表的区域而不是 Hbase 区域服务器生成映射器。

    为了更好的理解,请关注http://bytepadding.com/big-data/hbase/hbase-parameter-tuning/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-07-21
      • 1970-01-01
      • 1970-01-01
      • 2011-06-16
      • 1970-01-01
      相关资源
      最近更新 更多