【发布时间】:2018-06-18 13:02:46
【问题描述】:
我设置了一个气流工作流程,将一些文件从 s3 摄取到 Google Cloud 存储,然后运行 sql 查询工作流程以在 Big Query 上创建新表。在工作流结束时,我需要将最后一个 Big Query 表的输出推送到 Google Cloud Storage,然后从那里推送到 S3。
我已经使用BigQueryToCloudStorageOperator python 运算符破解了大查询表到谷歌云存储的传输,没有任何问题。但是,从 Google Cloud Storage 到 S3 的转移似乎是一条不太受欢迎的路线,我一直无法找到可以在我的 Airflow 工作流程中自动化的解决方案。
我知道rsync 是gsutil 的一部分,并且已经开始工作(参见帖子Exporting data from Google Cloud Storage to Amazon S3),但我无法将其添加到我的工作流程中。
我有一个在计算引擎实例上运行的 dockerised 气流容器。
非常感谢帮助解决这个问题。
非常感谢!
【问题讨论】:
标签: python amazon-s3 google-cloud-platform google-cloud-storage airflow