【问题标题】:HDFS disk usage showing different information显示不同信息的 HDFS 磁盘使用情况
【发布时间】:2016-04-20 13:30:40
【问题描述】:

我通过 hadoop fsck / 获得了以下详细信息 总大小:41514639144544 B(总打开文件大小:581 B) 总目录:40524 文件总数:124348 符号链接总数:0(当前正在写入的文件:7) 总块(已验证):340802(平均块大小 121814540 B)(打开文件块总数(未验证):7) 最少复制块:340802 (100.0 %)

我使用 256MB 块大小。 所以 340802 个块 * 256 MB = 83.2TB * 3(副本)=249.6 TB 但在 cloudera manager 中,它显示已使用 110 TB 磁盘。怎么可能?

【问题讨论】:

    标签: hadoop hdfs fsck bigdata


    【解决方案1】:

    您不能只乘以块大小和复制因子。块大小和复制因子可以在每个文件级别动态更改。

    因此,您在问题的第二部分完成的计算不必正确,尤其是 fsck 命令显示的块大小约为 120MB。

    在这种情况下,40 TB 的存储空间占用了大约 110 TB 的存储空间。因此,所有文件的复制因子也不是 3。您在 Cloudera Manager 中得到的都是正确的值。

    【讨论】:

    • 因此 hdfs 减小了较小文件的块大小。我的意思是如果一个文件是 8kb 并且块大小是 256Mb 那么 hdfs 会减少该文件的块大小是你的意思吗?
    • HDFS 不会减小块大小。块大小是文件被分成块的最大大小。如果它分配块大小,那么将浪费大量存储空间。您可以转到 namenode Web 界面,然后是实用程序,然后浏览文件系统。您可以查看每个单独的块 ID 及其属性。
    猜你喜欢
    • 2019-03-19
    • 1970-01-01
    • 2015-10-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-30
    • 2016-05-28
    • 1970-01-01
    相关资源
    最近更新 更多