【发布时间】:2021-04-23 17:17:31
【问题描述】:
使用 python 解决方案解决这个问题有很多问题,但是在为 Glue 找到任何东西时遇到了问题。了解两者都利用 pyspark,但是当我尝试将基于 python 的解决方案适应于 Scala 时,我遇到了编译错误。既想问这个问题,又想为有同样问题的其他人提供一个简单的参考。
基本上我会像这样生成我的输出
val datasource0 = DynamicFrame(data, glueContext).withName("datasource0").withTransformationContext("datasource0")
val datasink2 = glueContext.getSinkWithFormat(connectionType = "s3", options = JsonOptions(Map("path" -> "s3://sf_path")),format = "parquet", transformationContext = "datasink2").writeDynamicFrame(datasource0)
Pyspark 是 pyspark,它为此转换生成多个输出文件。如何修改我的作业以仅创建一个输出文件?
【问题讨论】:
标签: scala pyspark data-science etl aws-glue