在 GCP 中的 Google 存储桶上运行数据处理任务

【问题标题】：Running data processing tasks on Google Buckets in GCP在 GCP 中的 Google 存储桶上运行数据处理任务
【发布时间】：2019-03-08 13:55:56
【问题描述】：

我们的 Google 存储桶中有很多大文件（约千兆字节）。我想处理这些文件并生成新文件。具体来说，这些是JSON文件，我想从中提取一个字段并将一些文件合并为一个。

我可以编写一些在 Kubernetes 中作为 pod 运行的脚本，这些脚本将连接到存储桶并从那里来回传输数据。但我觉得它很难看 - 有没有专门用于桶中数据处理的东西？

【问题讨论】：

标签： kubernetes google-cloud-platform google-cloud-storage

【解决方案1】：

闻起来像大数据问题。

使用像Apache Spark这样的大数据软件来处理大文件。由于数据存在于 Google Cloud 中，因此建议使用 Google Cloud Dataproc。此外，K8S 上的大数据是 WIP，建议暂时离开 K8S。也许将来在 K8S 上使用大数据。更多关于 K8S 上的大数据（here 和 here）。

使用您的解决方案（使用 K8S 和手工代码），所有容错都必须手动处理。但是，在 Apache Spark 的情况下，容错（节点关闭、网络故障等）会自动处理。

最后，我建议暂时忘掉 K8S，专注于大数据来解决问题。

【讨论】：