【问题标题】:Hbase, Region Servers, Storefile Size, IndexesHbase、区域服务器、存储文件大小、索引
【发布时间】:2016-12-12 08:27:04
【问题描述】:

您是否对 Hbase 中的索引表使用压缩? 如果是这样,您使用什么类型的压缩?

我注意到我的索引表的大小非常大,并且每天都在增长......添加新存储后,大小甚至更大。

我有例如大小为 108.3 G

的表 A

在/apps/hbase/data/data/default中,索引表大小为380.0G

在 /apps/hbase/data/archive/data/default 中,索引表的大小为 1.2 T

您能告诉我如何处理索引表的大小吗?

为什么 HDFS 上存档的数据如此之大? /apps/hbase/data/archive/data/default

能否以某种方式管理 HDFS 上存档目录的大小? 存档占用了我 HDFS 空间的 2/3 以上。

我也注意到,我在三张桌子上有一百多个“分割区域”,其他桌子没有“分割区域”。你知道可能是什么原因吗?

【问题讨论】:

    标签: hadoop indexing compression hbase hortonworks-data-platform


    【解决方案1】:

    我在stage环境中发现,/apps/hbase/data/archive/中数据量大的原因是每天从cron运行的hbase快照造成的。

    所以,现在我将重写脚本,只保留一两个表快照。

    【讨论】:

      【解决方案2】:

      是的,我用过这样的 snappy...

       create 't1', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }
      

      Compression support Check

      Use CompressionTest to verify snappy support is enabled and the libs can be loaded ON ALL NODES of your cluster:

      $ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy
      

      对于您上面的大多数问题.. 压缩会有所帮助。也可以看看my answer. how it helped

      我也注意到,我在三张桌子上超过一百张 “分割区域”,其他表没有“分割区域”。你知道吗 可能是什么原因?

      • 确保在有限数之间预先拆分表格,例如 0-9。
      • 在表区域上运行压缩。

      【讨论】:

      • 谢谢,我会将 snappy 压缩添加到索引表中。我只是想知道在具有索引表的大型环境中这是否是常见做法。
      猜你喜欢
      • 2013-12-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多