【问题标题】:How to get the hdfs usage report in details如何详细获取 hdfs 使用报告
【发布时间】:2016-06-22 17:57:10
【问题描述】:

我们得到了容量为 900TB 的 hdfs。随着存储的数据越来越多,很难跟踪有用的数据和可以删除的数据。 我想分析以下模式的 hdfs 使用情况,以便优化使用容量。

  1. 什么是经常访问的数据。
  2. 数据长时间没有被触摸/访问(可能被删除)
  3. 用户的数据使用分布。
  4. 活跃用户。

【问题讨论】:

    标签: hadoop hdfs cloudera cloudera-cdh bigdata


    【解决方案1】:

    您可以从以下位置获取该数据:

    • (1) HDFS 审核日志(每个用户/IP 的访问模式)
    • (2) fsimage(每个文件的访问次数,未访问的数据)

    (1) 您是否启用了 HDFS 审核日志?阅读更多here

    (2) 从 fsimage 开始读取 this - 有一个示例可以获取“长时间未触摸/访问数据”

    您可能还需要考虑HAR 来归档数据(而不是删除) - 从而减少名称节点上的存储使用和宝贵的内存。

    【讨论】:

      猜你喜欢
      • 2019-09-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-11-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-30
      相关资源
      最近更新 更多