【问题标题】:Running data processing tasks on Google Buckets in GCP在 GCP 中的 Google 存储桶上运行数据处理任务
【发布时间】:2019-03-08 13:55:56
【问题描述】:

我们的 Google 存储桶中有很多大文件(约千兆字节)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件合并为一个。

我可以编写一些在 Kubernetes 中作为 pod 运行的脚本,这些脚本将连接到存储桶并从那里来回传输数据。但我觉得它很难看 - 有没有专门用于桶中数据处理的东西?

【问题讨论】:

    标签: kubernetes google-cloud-platform google-cloud-storage


    【解决方案1】:

    闻起来像大数据问题。

    使用像Apache Spark这样的大数据软件来处理大文件。由于数据存在于 Google Cloud 中,因此建议使用 Google Cloud Dataproc。此外,K8S 上的大数据是 WIP,建议暂时离开 K8S。也许将来在 K8S 上使用大数据。更多关于 K8S 上的大数据(herehere)。

    使用您的解决方案(使用 K8S 和手工代码),所有容错都必须手动处理。但是,在 Apache Spark 的情况下,容错(节点关闭、网络故障等)会自动处理。

    最后,我建议暂时忘掉 K8S,专注于大数据来解决问题。

    【讨论】:

      猜你喜欢
      • 2021-08-12
      • 2019-02-17
      • 1970-01-01
      • 2022-06-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-09
      • 1970-01-01
      相关资源
      最近更新 更多