【问题标题】:Merge multiple parquet files to single parquet file in AWS S3 using AWS Glue ETL python spark (pyspark)使用 AWS Glue ETL python spark (pyspark) 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件
【发布时间】:2020-03-25 14:12:18
【问题描述】:
我每 15 分钟运行一次 AWS Glue ETL 作业,每次在 S3 中生成 1 个 parquet 文件。
我需要创建另一个作业以在每小时结束时运行,以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 parquet 文件合并为 1 个单个 parquet 文件。
有人试过吗?建议和最佳实践?
提前致谢!
【问题讨论】:
标签:
amazon-s3
pyspark
parquet
aws-glue
【解决方案1】:
嗯.. 一个简单的选择是将其转换为 spark 数据帧
1) 将镶木地板读入动态帧(或者更好的是,将其读取为 spark 数据帧)
2) sourcedf.toDF().repartition(1)