【发布时间】:2019-03-11 22:32:18
【问题描述】:
我有一个向 Google Cloud pubsub 写入数据的应用程序,根据 pubsub 的文档,由于重试机制而导致的重复是偶尔会发生的事情。还有乱序消息的问题,这在 pubsub 中也不能保证。
此外,根据文档,可以使用 Google Cloud Dataflow 对这些消息进行重复数据删除。
我想让这些消息在消息队列(即云 pubsub)中可用以供服务使用,而云 Dataflow 似乎确实有一个 pubsubio 写入器,但是您不会回到写入到完全相同的问题pubsub 可以创建重复项吗?订单不是同样的问题吗?如何使用 pubsub(或任何其他系统)按顺序流式传输消息?
是否可以使用云数据流从 pubsub 主题读取并写入另一个 pubsub 并保证不重复?如果不是,您将如何做到这一点,以支持相对少量数据的流式传输?
我对 Apache Beam/Cloud Dataflow 也很陌生。这样一个简单的用例会是什么样子?我想我可以使用 pubsub 本身生成的 ID 进行重复数据删除,因为我让 pubsub 库进行内部重试而不是自己进行,因此重试时 ID 应该相同。
【问题讨论】:
标签: message-queue google-cloud-dataflow apache-beam google-cloud-pubsub