【问题标题】:Saving the pyspark dataframe to multiple AWS S3 buckets将 pyspark 数据帧保存到多个 AWS S3 存储桶
【发布时间】:2021-07-23 11:44:15
【问题描述】:

我目前正在研究用例,其中

  1. 我想将每个分区写入不同的 S3 存储桶。
  2. 想知道,如果我将整个数据帧写入大小约为 50GB 的单个 S3 存储桶,那么假设我以JSON 格式写入数据,则保存的数据在存储桶中的样子;更具体地说,保存数据框时 S3 中的文件名是什么。

【问题讨论】:

  • 您能花点时间重新提出问题吗?真的很难理解你的问题是什么。
  • @RobertKossendey :我已按照您的要求更新了问题详细信息。

标签: amazon-web-services apache-spark amazon-s3 pyspark


【解决方案1】:

首先,为什么要把每个分区写在一个单独的桶里?

关于您的第二个问题:保存的数据取决于您保存到 S3 的分区数量。您始终可以通过在数据框上调用 .repartition() 来重新分区数据。由于文件以 Hadoop 文件格式保存,因此名称将包含一些特定的数字和类似于此的 -part 后缀:part-block-0-0-r-00000-.json

【讨论】:

  • 这就是我想知道当它们被保存到 S3 时分区的确切名称。谢谢!!
猜你喜欢
  • 2019-11-07
  • 2018-02-02
  • 1970-01-01
  • 2020-07-29
  • 1970-01-01
  • 2021-11-01
  • 2022-01-13
  • 1970-01-01
  • 2020-04-22
相关资源
最近更新 更多