Hbase、区域服务器、存储文件大小、索引答案

【问题标题】：Hbase, Region Servers, Storefile Size, IndexesHbase、区域服务器、存储文件大小、索引
【发布时间】：2016-12-12 08:27:04
【问题描述】：

您是否对 Hbase 中的索引表使用压缩？如果是这样，您使用什么类型的压缩？

我注意到我的索引表的大小非常大，并且每天都在增长......添加新存储后，大小甚至更大。

我有例如大小为 108.3 G

的表 A

在/apps/hbase/data/data/default中，索引表大小为380.0G，

在 /apps/hbase/data/archive/data/default 中，索引表的大小为 1.2 T

您能告诉我如何处理索引表的大小吗？

为什么 HDFS 上存档的数据如此之大？ /apps/hbase/data/archive/data/default

能否以某种方式管理 HDFS 上存档目录的大小？存档占用了我 HDFS 空间的 2/3 以上。

我也注意到，我在三张桌子上有一百多个“分割区域”，其他桌子没有“分割区域”。你知道可能是什么原因吗？

【问题讨论】：

【解决方案1】：

我在stage环境中发现，/apps/hbase/data/archive/中数据量大的原因是每天从cron运行的hbase快照造成的。

所以，现在我将重写脚本，只保留一两个表快照。

【讨论】：

【解决方案2】：

是的，我用过这样的 snappy...

 create 't1', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }

$ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy

对于您上面的大多数问题.. 压缩会有所帮助。也可以看看my answer. how it helped

我也注意到，我在三张桌子上超过一百张 “分割区域”，其他表没有“分割区域”。你知道吗可能是什么原因？

【讨论】：