【发布时间】:2021-12-23 01:01:55
【问题描述】:
我们正在考虑使用 Beam/Dataflow 进行状态处理:
- 在全局窗口上实时聚合指标(每 1 分钟)
- 大量并行会话 (> 1 mio) 的实时聚合
示例:自在门户网站上注册后,每 1 个 mio 客户可获得最高价格文章
此外,我们还希望在不干扰实时作业的情况下访问这些计算出的聚合。
设计问题:它是否可以被当前状态后端覆盖 - Windmill/Persistent Disks [1] - 还是使用数据库(如 BigTable)更合适?
谢谢!
【问题讨论】:
-
如果您需要对存储层进行此类控制,那么数据流现在可能是合适的产品。在 stackex 中询问时,我建议还解释上下文(为什么您需要在管道上满足饱和度?为什么需要在存储层上进行控制?)。这将避免XY problem。您已经问了 4 个关于在标准 Beam 之外做事的问题,所以也许您应该解释一下您面临的限制,以便获得更好的答案。
-
已重构问题以阐明要求。
-
对于设计和架构方面的疑问,由于没有相关的代码疑问(检查Help Centre "What's on Topic"),StackOverflow 不是最好的提问地方。请尝试在 Software Engineering Stack Exchange 上提问。
标签: google-cloud-platform cloud persistence google-cloud-dataflow google-cloud-bigtable