【发布时间】:2017-11-09 15:57:05
【问题描述】:
我正在为数据流运行器开发光束管道。我的用例中需要以下功能。
- 从 Kafka 主题读取输入事件。每个 Kafka 消息值派生
[userID, Event]对。 - 对于每个
userID,我需要维护一个profile,并且基于当前的Event,可能会更新profile。如果profile更新:- 更新的
profile已写入输出流。 - 管道中
userID的下一个Event应参考更新后的配置文件。
- 更新的
我正在考虑使用 Beam 中提供的状态功能,而不依赖于外部键值存储来维护用户配置文件。这对于当前版本的梁(2.1.0)和dataflow runner 是否可行?如果我理解正确,则状态的范围仅限于单个窗口触发中的元素(即即使对于GlobalWindow,状态也将范围限制为由触发器引起的窗口的单个触发中的元素)。我在这里遗漏了什么吗?
【问题讨论】:
标签: google-cloud-dataflow apache-beam