【发布时间】:2021-10-22 11:12:00
【问题描述】:
我希望使用胶水将数据从源摄取到 s3。是否可以将胶水中摄取的数据压缩到指定值?例如:将数据压缩到 500 MB 并且还可以根据提供的压缩值对数据进行分区?如果是,如何启用此功能?我正在用 Python 编写胶水脚本。
【问题讨论】:
-
我假设 S3 是您的目标。数据的来源是什么?您希望如何在 S3 中存储数据 - json/csv/parquet 等?
-
嗨 Azeem,我希望将其以镶木地板格式存储到 s3 中。源是一个关系表。
标签: amazon-web-services pyspark aws-glue aws-glue-spark aws-glue-workflow