【发布时间】:2017-10-11 05:59:40
【问题描述】:
尝试将 BigQuery 中的表数据导出到在 Google Cloud Storage 中创建的存储桶。
当我使用单个通配符 URI 将 BigQuery 中的表导出到 GCS 时,它会自动将表拆分为多个分片文件(每个文件大约 368 MB)并放在 GCS 中的指定存储桶中。
命令如下:
bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv'
即使使用多个 URI,文件大小和文件数量也保持不变(每个文件大约 368 MB):
bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/1-*.csv','gs://<gcs_bucket>/2-*.csv','gs://<gcs_bucket>/3-*.csv','gs://<gcs_bucket>/4-*.csv','gs://<gcs_bucket>/5-*.csv'
我正在尝试弄清楚如何使用多个 URI 选项来减小文件大小。
【问题讨论】:
标签: google-bigquery