Spark 如何创建从 S3 读取的对象的分区？答案

【问题标题】：How does Spark create partitions of objects read from S3?Spark 如何创建从 S3 读取的对象的分区？
【发布时间】：2020-06-25 21:20:34
【问题描述】：

Spark 如何创建从 S3 读取的对象的分区？

我在 S3 中有一个大小为 118MB 的对象。我将对象读入胶水动态框架。转换为 spark 数据框并应用了一些转换。然后将数据写回 S3。输出文件夹由大小为 51MB 和 39MB 的两个对象组成。 Spark如何决定从S3读取的数据的分区方案？

代码如下：

df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()

df = df.filter('student.year != "2005"')

df.write.mode("append").json(s3WritePath)

【问题讨论】：

问题是缺少有关如何将数据写回 S3 的详细信息。应该包含您使用的代码。
请添加您正在使用的代码。这将有助于人们理解问题。
代码已合并。

标签： amazon-web-services apache-spark hadoop amazon-s3 aws-glue

【解决方案1】：

从 s3 读取时，默认拆分大小为 64 MB。例如。对于以下 3 个文件，拆分为：

File size       Splits
100MB           64MB, 36MB
23MB            23MB
66MB            64MB, 2MB

【讨论】：