【发布时间】:2021-07-07 12:14:35
【问题描述】:
我正在尝试使用 hadoop fs -get 将 parquet 文件从 hadoop 集群复制到边缘节点。 parquet 文件大小约为 2.4gb,但由数千个文件组成,每个文件大小约为 2kb。这个过程需要很长时间。
我可以做些什么来加快这个过程,也许可以增加并发性?
我不拥有集群,无法对其进行配置更改。
【问题讨论】:
-
您有一个
.parquet文件还是数千个2kb.parquet文件?