显示不同信息的 HDFS 磁盘使用情况答案

【问题标题】：HDFS disk usage showing different information显示不同信息的 HDFS 磁盘使用情况
【发布时间】：2016-04-20 13:30:40
【问题描述】：

我通过 hadoop fsck / 获得了以下详细信息总大小：41514639144544 B（总打开文件大小：581 B）总目录：40524 文件总数：124348 符号链接总数：0（当前正在写入的文件：7）总块（已验证）：340802（平均块大小 121814540 B）（打开文件块总数（未验证）：7）最少复制块：340802 (100.0 %)

我使用 256MB 块大小。所以 340802 个块 * 256 MB = 83.2TB * 3（副本）=249.6 TB 但在 cloudera manager 中，它显示已使用 110 TB 磁盘。怎么可能？

【问题讨论】：

标签： hadoop hdfs fsck bigdata

【解决方案1】：

您不能只乘以块大小和复制因子。块大小和复制因子可以在每个文件级别动态更改。

因此，您在问题的第二部分完成的计算不必正确，尤其是 fsck 命令显示的块大小约为 120MB。

在这种情况下，40 TB 的存储空间占用了大约 110 TB 的存储空间。因此，所有文件的复制因子也不是 3。您在 Cloudera Manager 中得到的都是正确的值。

【讨论】：

因此 hdfs 减小了较小文件的块大小。我的意思是如果一个文件是 8kb 并且块大小是 256Mb 那么 hdfs 会减少该文件的块大小是你的意思吗？
HDFS 不会减小块大小。块大小是文件被分成块的最大大小。如果它分配块大小，那么将浪费大量存储空间。您可以转到 namenode Web 界面，然后是实用程序，然后浏览文件系统。您可以查看每个单独的块 ID 及其属性。