【问题标题】:How is persistent disk use determined in GCP Dataflow?GCP Dataflow 中如何确定永久性磁盘的使用情况?
【发布时间】:2017-12-18 15:40:17
【问题描述】:

在定价部分,Google 表示每个工作人员有一个默认的 PD 数量(取决于批处理与流式处理)。我正在运行一项工作,考虑到我拥有的工作人员数量(与默认 PD 使用相比),持久磁盘的使用量远远高于应有的数量。这在多个不同的工作中是一致的。是什么导致 PD 使用量增加?作为参考,流式工作人员的默认值为 480 GB,但我需要为 5888 GB 付费。

【问题讨论】:

  • 你的工作 ID 是什么?
  • @jkff 2017-07-12_13_02_25-18120989511327716317。我感到困惑的部分是“当前 PD” - 与定价页面所说的 PD 应该适用于四个流媒体工作者相比。

标签: google-cloud-platform google-cloud-dataflow


【解决方案1】:

2021 年更新

Dataflow 现在具有流式引擎 - 流式引擎不依赖永久性磁盘来保存流式作业的状态 - 相反,它提供了一种“服务”,用于抽象流式状态/快照存储。

如果磁盘计费是您的流式传输管道中的一个问题,请考虑使用流式引擎。

查看更多信息:https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#streaming-engine


这是一个启用了自动缩放的流式管道。

根据https://cloud.google.com/dataflow/service/dataflow-service-desc#autoscaling

流式传输管道使用固定的永久磁盘池部署,数量等于 --maxNumWorkers

根据https://cloud.google.com/dataflow/service/dataflow-service-desc#persistent-disk-resources

每个永久性磁盘的默认大小在批处理模式下为 250 GB,在流式模式下为 400 GB。

因此“当前 PD”的预期值应该是(您的 maxNumWorkers 的值)* 400GB,而不是 4 * 400GB。

【讨论】:

  • 嗨@jkff,这是一个很大的失望,这是否有一些技术原因,为什么磁盘不能随着工作人员或只是需要空间而上下扩展?
  • 我们正在努力改进流式运行器,将其更多地推向“无服务器”方向,这与 cloud.google.com/blog/big-data/2017/07/…(对于批处理管道)不同,这将解决这个限制。
猜你喜欢
  • 2021-02-25
  • 2019-01-26
  • 2020-11-22
  • 2019-04-09
  • 2016-02-20
  • 1970-01-01
  • 1970-01-01
  • 2017-11-26
  • 1970-01-01
相关资源
最近更新 更多