【发布时间】:2018-06-27 02:39:35
【问题描述】:
阅读 Amazon 文档后,我的理解是,运行/测试 Glue 脚本的唯一方法是将其部署到开发端点并在必要时进行远程调试。同时,如果(Python)代码由多个文件和包组成,除主脚本外的所有文件都需要压缩。这一切让我觉得 Glue 不适合任何复杂的 ETL 任务,因为开发和测试很麻烦。我可以在本地测试我的 Spark 代码,而不必每次都将代码上传到 S3,并在 CI 服务器上验证测试,而无需支付开发 Glue 端点的费用。
【问题讨论】:
-
@Ifk - 你能解决这个问题吗?我正在研究 Glue 并在开发端点上测试代码。我正在寻找更好的选择?
-
似乎没有更好的选择。最后我决定不使用胶水
-
Yuva 提到的 Zeppelin 工作流程似乎仍然是 2018 年 8 月要走的路,如果没有某种公开可用的运行时来构建/针对本地进行测试。如果胶水的主要用例是源和汇,并且您的实际 ETL 可以用 spark 编写,则可能值得考虑在本地构建 spark ETL,部署为 jar 并将 Glue 脚本保留为“哑”包装器从 ETL 作业中提供/收集数据。
标签: python amazon-web-services aws-glue