【发布时间】:2019-07-15 18:57:07
【问题描述】:
我需要将我的 bigquery 表移动到 redshift。
目前我有一个从 redshift 获取数据的 python 作业,它是在 redshift 上增量加载我的数据。
这个 python 作业正在读取 bigquery 数据,在服务器中创建一个 csv 文件,在 s3 上删除相同的文件,readshift 表从 s3 上的文件中读取数据。但是现在时间会很大,服务器处理不了。
你们碰巧知道比这更好的吗?
我需要移动的 bigquery 上的 7 个新表,每个表大约 1 TB,并带有重复的列集。 (我正在做一个 unnest join 来展平它)
【问题讨论】:
-
如果您的 CSV 太大或减慢了进程...您可以将 BQ 源表细分或查询成更小的文件或增量文件吗?
标签: google-bigquery amazon-redshift python-bigquery