【发布时间】:2023-04-02 18:10:01
【问题描述】:
我有一个文件有两列,第一列是源文件的hdfs路径,第二列是目标文件的hdfs路径:
s1, t1 s2, t2 ..,.. sn, tn
我将源路径复制到各自的目标路径的最快方法是什么。 hadoop有这样的工具吗?
列表可能有 100-200 行长,每个文件有几兆字节。
【问题讨论】:
我有一个文件有两列,第一列是源文件的hdfs路径,第二列是目标文件的hdfs路径:
s1, t1 s2, t2 ..,.. sn, tn
我将源路径复制到各自的目标路径的最快方法是什么。 hadoop有这样的工具吗?
列表可能有 100-200 行长,每个文件有几兆字节。
【问题讨论】:
列表可能有 100-200 行长,每个文件有几兆字节。
如果这是一种一次性的情况,那么这还不足以让人担心。一个愚蠢的外壳循环就可以了:
cat pairs-file | while read pair; do hdfs dfs -cp $pair; done
【讨论】: