【发布时间】:2019-05-14 01:27:16
【问题描述】:
这里有人用 Python 编写 ETL 或 ELT(纯 Python - 不是 PySpark)吗?如果是的话,在 Python 中编写 ETL 的一些陷阱是什么?我们目前正在使用 SAP 数据服务,但希望摆脱它并使用 AWS Glue、Lambda、Redshift 等。
【问题讨论】:
这里有人用 Python 编写 ETL 或 ELT(纯 Python - 不是 PySpark)吗?如果是的话,在 Python 中编写 ETL 的一些陷阱是什么?我们目前正在使用 SAP 数据服务,但希望摆脱它并使用 AWS Glue、Lambda、Redshift 等。
【问题讨论】:
AWS Redshift 是一个强大的工具,可以肯定地用于 ETL 目的。通常使用常规 Redshift SQL 查询和工具应该可以处理大部分情况。
对于更高级的场景,您可以考虑将 Redshift 与 Python UDF 结合使用。 Redshift 带有一组令人印象深刻的开箱即用的库(如 Numpy 或 Pandas)。您还可以轻松地将自己的库导入 Redshift。
【讨论】: