将 pyspark 数据帧保存到多个 AWS S3 存储桶答案

【问题标题】：Saving the pyspark dataframe to multiple AWS S3 buckets将 pyspark 数据帧保存到多个 AWS S3 存储桶
【发布时间】：2021-07-23 11:44:15
【问题描述】：

我目前正在研究用例，其中

我想将每个分区写入不同的 S3 存储桶。
想知道，如果我将整个数据帧写入大小约为 50GB 的单个 S3 存储桶，那么假设我以JSON 格式写入数据，则保存的数据在存储桶中的样子；更具体地说，保存数据框时 S3 中的文件名是什么。

【问题讨论】：

您能花点时间重新提出问题吗？真的很难理解你的问题是什么。
@RobertKossendey ：我已按照您的要求更新了问题详细信息。

标签： amazon-web-services apache-spark amazon-s3 pyspark

【解决方案1】：

首先，为什么要把每个分区写在一个单独的桶里？

关于您的第二个问题：保存的数据取决于您保存到 S3 的分区数量。您始终可以通过在数据框上调用 .repartition() 来重新分区数据。由于文件以 Hadoop 文件格式保存，因此名称将包含一些特定的数字和类似于此的 -part 后缀：part-block-0-0-r-00000-.json

【讨论】：

这就是我想知道当它们被保存到 S3 时分区的确切名称。谢谢！！