【发布时间】:2020-07-18 17:56:30
【问题描述】:
我正在尝试使用 Spark 将大约 30k-60k parquet 文件写入 s3,由于 s3 速率限制,这需要大量时间(40 多分钟)。 我想知道是否有最佳实践来做这样的事情。我听说将数据写入 HDFS,然后使用 s3-dist-cp 进行复制可能会更快。我不明白为什么。由于 s3 速率限制,来自 HDFS 的副本不会花费相同的时间吗?
感谢您的帮助
【问题讨论】:
标签: apache-spark amazon-s3 hdfs