【发布时间】:2020-06-25 21:20:34
【问题描述】:
Spark 如何创建从 S3 读取的对象的分区?
我在 S3 中有一个大小为 118MB 的对象。我将对象读入胶水动态框架。转换为 spark 数据框并应用了一些转换。然后将数据写回 S3。输出文件夹由大小为 51MB 和 39MB 的两个对象组成。 Spark如何决定从S3读取的数据的分区方案?
代码如下:
df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()
df = df.filter('student.year != "2005"')
df.write.mode("append").json(s3WritePath)
【问题讨论】:
-
问题是缺少有关如何将数据写回 S3 的详细信息。应该包含您使用的代码。
-
请添加您正在使用的代码。这将有助于人们理解问题。
-
代码已合并。
标签: amazon-web-services apache-spark hadoop amazon-s3 aws-glue