【问题标题】:How to export gzipped data into google cloud storage from bigquery如何从 bigquery 将压缩数据导出到谷歌云存储
【发布时间】:2014-01-07 17:20:00
【问题描述】:

我需要每天将数据从 bigquery 导出到谷歌云存储。数据量比较大(1TB),我把这些数据导出到google storage后,需要从里面下载,这一步很慢。所以我想知道我是否可以将压缩数据导出到谷歌存储中?这样可以减少数据量,然后我可以非常快速地下载数据。

你能给我一些建议吗?因为我在从 bigquery 提取到谷歌云存储时没有在 bigquery API 中找到压缩函数。

提前致谢!

【问题讨论】:

    标签: google-bigquery


    【解决方案1】:

    现在您可以使用 gzip 压缩导出到 GCS。

    另外,如果文件大于 1GB,你可以指定 '*' 来分割文件 分成更小的块。

    【讨论】:

      【解决方案2】:

      很遗憾,没有 gzip 选项。

      也就是说,当您从 Google Cloud Storage 下载文件时,您可以使用自动 HTTP 压缩来为您执行 gzip。只需添加 HTTP 标头:

      accept-encoding: gzip
      user-agent: anything
      

      您需要定义用户代理标头可能看起来很奇怪。对我们来说也很奇怪。这是许多谷歌产品的共同功能,旨在避免浏览器中无法正确处理压缩的错误(请参阅https://developers.google.com/appengine/kb/general?csw=1#compression)。

      如果您使用 gsutil 下载文件,它会自动添加压缩头。

      【讨论】:

        猜你喜欢
        • 2016-06-07
        • 2017-02-10
        • 2015-02-25
        • 2018-05-25
        • 2018-10-30
        • 2015-02-01
        • 2017-12-03
        • 2019-09-22
        • 1970-01-01
        相关资源
        最近更新 更多