【问题标题】:How to speed up retrieval of a large number of small files from HDFS如何加快从 HDFS 中检索大量小文件的速度
【发布时间】:2021-07-07 12:14:35
【问题描述】:

我正在尝试使用 hadoop fs -get 将 parquet 文件从 hadoop 集群复制到边缘节点。 parquet 文件大小约为 2.4gb,但由数千个文件组成,每个文件大小约为 2kb。这个过程需要很长时间。

我可以做些什么来加快这个过程,也许可以增加并发性?

我不拥有集群,无法对其进行配置更改。

【问题讨论】:

  • 您有一个.parquet 文件还是数千个2kb .parquet 文件?

标签: hadoop hdfs parquet


【解决方案1】:

您可以尝试使用 distcp 而不是使用 -get 命令,前提是您运行该命令的集群支持 MapReduce

https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html#Basic_Usage

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-10-31
    • 2016-05-01
    • 2018-03-26
    • 1970-01-01
    • 2019-08-31
    • 2019-03-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多