【发布时间】:2019-03-17 00:33:55
【问题描述】:
我正在使用 AWS Glue,需要将 Redshift 数据仓库架构中的布尔值(True 和 False)列转换为另一个 Redshift 架构中的“是”/“否”。目前,在 AWS Glue GUI 中似乎没有一种简单的方法来执行此操作。
我一直在关注这里的指南:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-transforms-map.html
并创建了函数:
def ConvertBoolean(dataFrame,ColumnName):
dataFrame["booleanTransform"] = {}
if dataFrame[ColumnName] == True:
dataFrame["booleanTransform"] = "Yes"
else:
dataFrame["booleanTransform"] = "No"
del dataFrame[ColumnName]
dataFrame[ColumnName] = {}
dataFrame[ColumnName] = dataFrame["booleanTransform"]
del dataFrame["booleanTransform"]
return dataFrame
但不知道函数应该存储在哪里或如何传递动态帧,因为在提供的文档示例中没有说明。
如何在 AWS Glue 的 pyspark 代码中最好地实现这一点?
【问题讨论】:
-
你找到了一个很好的例子吗?我被困在同一点 - 文档不完整以及如何/在哪里定义转换。
标签: amazon-web-services amazon-redshift aws-glue