【发布时间】:2020-05-27 07:57:07
【问题描述】:
我的数据框中有一个名为target_col_a 的列,其时间戳值已转换为字符串,例如2020-05-27 08:00:00.
然后我partitionBy这个专栏如下。
target_dataset \
.write.mode('overwrite') \
.format('parquet') \
.partitionBy('target_col_a') \
.save('s3://my-bucket/my-path')
但是,我的 s3 路径变成了 s3://my-bucket/my-path/target_col_a=2020-05-27 08%3A00%3A00/part-0-file1.snappy.parquet
有没有办法输出没有%3A的分区并保留:?
注意:当我使用 Glue native DynamicFrame 写入 S3 或 Redshift UNLOAD 写入 S3 时,分区会根据需要进行(没有 %3A 和 :),例如
glueContext.write_dynamic_frame.from_options(
frame = target_dataset,
connection_type = "s3",
connection_options = {
"path": "s3://my-bucket/my-path/",
"partitionKeys": ["target_col_a"]},
format = "parquet",
transformation_ctx = "datasink2"
)
【问题讨论】:
标签: amazon-web-services amazon-s3 pyspark