【发布时间】:2021-07-15 18:35:09
【问题描述】:
我是 pyspark 的新手,我的任务是使用 pyspark 将源文件夹数据复制到目标文件夹,其中也会发生并行化。
在 python 中,我可以使用
from shutil import copytree
copytree(source, destination)
有了这个,我可以使用标准 python 以文件夹结构重复复制整个数据。我也想做。在集群上使用 pyspark 的任务。我应该如何进行,我正在使用 YARN 作为资源管理器。
【问题讨论】:
标签: python apache-spark pyspark