【问题标题】:Running data processing tasks on Google Buckets in GCP在 GCP 中的 Google 存储桶上运行数据处理任务
【发布时间】:2019-03-08 13:55:56
【问题描述】:
我们的 Google 存储桶中有很多大文件(约千兆字节)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件合并为一个。
我可以编写一些在 Kubernetes 中作为 pod 运行的脚本,这些脚本将连接到存储桶并从那里来回传输数据。但我觉得它很难看 - 有没有专门用于桶中数据处理的东西?
【问题讨论】:
标签:
kubernetes
google-cloud-platform
google-cloud-storage
【解决方案1】:
闻起来像大数据问题。
使用像Apache Spark这样的大数据软件来处理大文件。由于数据存在于 Google Cloud 中,因此建议使用 Google Cloud Dataproc。此外,K8S 上的大数据是 WIP,建议暂时离开 K8S。也许将来在 K8S 上使用大数据。更多关于 K8S 上的大数据(here 和 here)。
使用您的解决方案(使用 K8S 和手工代码),所有容错都必须手动处理。但是,在 Apache Spark 的情况下,容错(节点关闭、网络故障等)会自动处理。
最后,我建议暂时忘掉 K8S,专注于大数据来解决问题。