【问题标题】:hadoop what is the "__distcpSplit__" file in hdfshadoop hdfs中的“__distcpSplit__”文件是什么
【发布时间】:2021-11-05 03:14:13
【问题描述】:

当我使用 Distcp 工具通过不同的集群复制文件时,我发现了一些不寻常的文件,后缀为__distcpSplit__。这是什么?原始文件没有这样的后缀。我也注意到源文件被其他进程打开了,但是为什么会出现这个结果?

【问题讨论】:

  • 准确来说,名字是 ****.__distcpSplit__0.20210101

标签: hadoop hdfs


【解决方案1】:

如果你传递arg blocksPerChunk > 0,它会将大文件分成多个块,每个块的大小为blockSize * blocksPerChunk,当distcp完成时,输出提交器会将这些文件连接到提交阶段的最终目标文件。

【讨论】:

  • 是的,你说的没错。但是我也发现distcp有一个bug。有一种情况是distcp将单个文件作为一个整体进行复制,而没有拆分复制期间写入的文件.Distcp 不会删除这些块文件。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2023-04-02
  • 1970-01-01
  • 2016-03-18
  • 1970-01-01
  • 2012-11-07
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多