【问题标题】:Migrate s3 data to google cloud storage将 s3 数据迁移到谷歌云存储
【发布时间】:2012-11-16 08:16:54
【问题描述】:

我在 Google App Engine 上部署了一个 Python 网络应用程序。

我需要获取存储在 Amazon S3 上的日志文件并将其加载到 Google Cloud Storage。一旦它在 Google Cloud Storage 中,我可能需要执行一些转换并最终将数据导入 BigQuery 进行分析。

我尝试使用 gsutil 作为某种概念证明,因为 boto 是 gsutil 的引擎盖,我想在我的项目中使用 boto。这不起作用。

我想知道是否有人设法在两个云之间直接传输文件。如果可能的话,我想看一个简单的例子。最后,这项任务必须通过在 GAE 上执行的代码来完成。

【问题讨论】:

    标签: amazon-s3 google-bigquery google-cloud-storage


    【解决方案1】:

    根据thread,您可以使用 gsutil 将数据从 S3 流式传输到 Google Cloud Storage,但每个字节仍然需要经过两跳:S3 到您的本地计算机,然后您的计算机到 GCS。但是,由于您使用的是 App Engine,因此您应该能够从 S3 中提取并存入 GCS。除了 App Engine 是中介之外,它与上述进程相同,即每个字节从 S3 传输到您的应用程序,然后再传输到 GCS。您可以将 boto 用于拉动侧,将 Google Cloud Storage API 用于推动侧。

    【讨论】:

      【解决方案2】:

      Google 允许您将整个存储桶从 S3 导入存储服务:

      https://cloud.google.com/storage/transfer/getting-started

      您可以在源存储桶上设置文件过滤器以仅导入您想要的文件或“目录”(即任何具有特定前缀的内容)。

      【讨论】:

      • 奇怪的是,他们的 GUI 工具不允许您选择多个存储桶,或者上传一个可能在 s3 上拥有的所有存储桶的列表。手动将每个存储桶上传到 Google 存储空间非常耗时。
      【解决方案3】:

      我不知道有任何云提供商提供了用于将数据传输到竞争云提供商的 API。云提供商没有动力帮助您将数据转移到竞争中。您几乎可以肯定必须将数据读取到中间机器,然后再将其写入 Google。

      【讨论】:

      • 许多供应商确实提供导入数据的功能; Google 可以有一个“导入 S3 存储桶”选项。
      猜你喜欢
      • 2018-10-11
      • 2015-02-03
      • 2013-06-02
      • 2021-01-04
      • 1970-01-01
      • 2018-01-15
      • 2017-12-30
      • 2015-07-17
      • 2018-06-21
      相关资源
      最近更新 更多