【发布时间】:2020-03-22 03:15:43
【问题描述】:
我很难理解 GCP Dataflow/Apache Beam 和 Spring Cloud Dataflow 之间的区别。我想做的是转向更云原生的流数据处理解决方案,这样我们的开发人员就可以更多地专注于开发核心逻辑,而不是管理基础设施。
我们有一个现有的流解决方案,其中包含我们可以迭代和独立部署的 spring 云数据流“模块”,就像微服务一样,效果很好,但我们希望迁移到 GCP 中由我们提供的现有平台需要我们使用 GCP Dataflow 的业务。概括地说,解决方案很简单:
流 1:
Kafka Source (S0) -> Module A1 (Ingest) -> Module B1 (Map) -> Module C1 (Enrich) -> Module D1 (Split) -> Module E1 (Send output to Sink S1)
流 2:
Kafka Source (S1) -> Module A2 (Ingest) -> Module B2 (Persist to DB) -> Module B3 (Send Notifications through various channels)
据我了解,我们想要迁移到的解决方案应该是相同的,但是模块将成为 GCP Dataflow 模块,源/接收器将成为 GCP Pub/Sub 而不是 kafka。
我遇到的大多数文档都没有将 SCDF 和 Apache Beam(GCP 数据流模块)作为类似的解决方案进行比较,所以我想知道如何/是否可以将我们现有的逻辑移植到这样的架构中。
任何澄清将不胜感激。提前致谢。
【问题讨论】:
标签: google-cloud-platform data-science spring-cloud apache-beam spring-cloud-dataflow