【问题标题】:Exporting Data using BigQuery multiple wildcard URIs使用 BigQuery 多个通配符 URI 导出数据
【发布时间】:2017-10-11 05:59:40
【问题描述】:

尝试将 BigQuery 中的表数据导出到在 Google Cloud Storage 中创建的存储桶。

当我使用单个通配符 URI 将 BigQuery 中的表导出到 GCS 时,它会自动将表拆分为多个分片文件(每个文件大约 368 MB)并放在 GCS 中的指定存储桶中。

命令如下:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv'

即使使用多个 URI,文件大小和文件数量也保持不变(每个文件大约 368 MB):

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/1-*.csv','gs://<gcs_bucket>/2-*.csv','gs://<gcs_bucket>/3-*.csv','gs://<gcs_bucket>/4-*.csv','gs://<gcs_bucket>/5-*.csv'

我正在尝试弄清楚如何使用多个 URI 选项来减小文件大小。

【问题讨论】:

    标签: google-bigquery


    【解决方案1】:

    我相信 BigQuery 不会对生成的文件大小提供任何保证,因此您观察到的是正确的:无论是否指定了多个通配符 URI,文件大小可能不会有所不同。

    多个通配符 URI 的常见用例是它告诉 BigQuery 将输出文件平均分配到 N 个模式中,以便您可以将每个输出 URI 模式提供给下游工作人员。

    【讨论】:

      猜你喜欢
      • 2022-06-24
      • 2018-12-26
      • 1970-01-01
      • 2014-05-03
      • 1970-01-01
      • 1970-01-01
      • 2020-04-08
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多