【问题标题】:How does Spark create partitions of objects read from S3?Spark 如何创建从 S3 读取的对象的分区?
【发布时间】:2020-06-25 21:20:34
【问题描述】:

Spark 如何创建从 S3 读取的对象的分区?

我在 S3 中有一个大小为 118MB 的对象。我将对象读入胶水动态框架。转换为 spark 数据框并应用了一些转换。然后将数据写回 S3。输出文件夹由大小为 51MB 和 39MB 的两个对象组成。 Spark如何决定从S3读取的数据的分区方案?

代码如下:

df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()

df = df.filter('student.year != "2005"')

df.write.mode("append").json(s3WritePath)

【问题讨论】:

  • 问题是缺少有关如何将数据写回 S3 的详细信息。应该包含您使用的代码。
  • 请添加您正在使用的代码。这将有助于人们理解问题。
  • 代码已合并。

标签: amazon-web-services apache-spark hadoop amazon-s3 aws-glue


【解决方案1】:

从 s3 读取时,默认拆分大小为 64 MB。 例如。对于以下 3 个文件,拆分为:

File size       Splits
100MB           64MB, 36MB
23MB            23MB
66MB            64MB, 2MB

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-29
    • 2016-04-02
    • 1970-01-01
    • 2019-04-14
    • 2021-05-02
    • 2018-05-05
    • 2020-01-25
    • 2018-01-29
    相关资源
    最近更新 更多