【发布时间】:2021-06-02 18:23:10
【问题描述】:
我在 GCP Cloud SQL PostgreSQL 中有数据,我想将这些数据以 Parquet 格式导出到 GCS,我看到直接不可能,只能以 SQL 和 CSV 格式执行,无论如何以 Parquet 格式导出数据.
【问题讨论】:
标签: google-cloud-platform google-cloud-storage google-cloud-sql parquet
我在 GCP Cloud SQL PostgreSQL 中有数据,我想将这些数据以 Parquet 格式导出到 GCS,我看到直接不可能,只能以 SQL 和 CSV 格式执行,无论如何以 Parquet 格式导出数据.
【问题讨论】:
标签: google-cloud-platform google-cloud-storage google-cloud-sql parquet
我建议您通过 BigQuery 实现这一目标
CREATE TABLE my_dataset.temp_table AS
SELECT * FROM EXTERNAL_QUERY("project_id.region.connection_name", "SELECT * FROM .....;");
bq --location=region extract \
--destination_format parquet \
project_id:my_dataset.temp_table \
gs://bucket/filename.parquet
这种方式保证你只有一个文件(或少量分片文件。
但是你可以加快这个过程,但是这个解决方案可以生成更多的文件
EXPORT DATA OPTIONS(
uri='gs://bucket/filename.parquet*',
format='PARQUET') AS
SELECT * FROM EXTERNAL_QUERY("project_id.region.connection_name", "SELECT * FROM .....;");
https://cloud.google.com/bigquery/docs/reference/standard-sql/other-statements#export_data_statement
【讨论】: