【发布时间】:2017-01-05 20:32:06
【问题描述】:
我正在研究一个基本上是高度可用的分布式消息传递系统。系统通过 HTTP 或 TCP 从某个地方接收消息,对其执行各种转换,然后将其发送到一个或多个目的地(也使用 TCP/HTTP)。
系统要求发送到给定目的地的所有消息都是有序的,因为某些消息建立在先前消息的内容之上。这限制了我们按顺序处理消息,每条消息大约需要 750 毫秒。因此,例如,如果有人每 250 毫秒向我们发送一条消息,我们就不得不将这些消息排在后面。这最终会在高负载下的消息处理中引入无法容忍的延迟,因为每条消息可能必须等待数百条其他消息被处理才能轮到它。
为了解决这个问题,我希望能够在不破坏我们按顺序发送它们的要求的情况下并行化我们的消息处理。
我们可以轻松地横向扩展我们的处理。丢失的部分是一种确保即使消息被无序处理,它们也会被“重新排序”并按照接收顺序发送到目的地的方法。我正在努力寻找实现这一目标的最佳方法。
Apache Camel 有 a thing called a Resequencer 可以做到这一点,它包含一个漂亮的图表(我没有足够的代表直接嵌入)。这正是我想要的:接收乱序消息并将它们按顺序排列的东西。
但是,我不希望它是用 Java 编写的,我需要高可用性的解决方案(即抵抗典型的系统故障,如崩溃或系统重启),我认为 Apache Camel 不提供。
我们的应用程序是用 Node.js 编写的,使用 Redis 和 Postgresql 来实现数据持久性。我们将Kue 库用于我们的消息队列。尽管 Kue 提供了优先级队列,但功能集对于上述用例来说太有限了,所以我认为我们需要一种替代技术来与 Kue 协同工作来重新排序我们的消息。
我试图在网上研究这个主题,但我找不到我预期的那么多信息。这似乎是那种会有大量文章和实现的分布式架构模式,但我看不到那么多。搜索诸如“消息重新排序”、“乱序处理”、“并行消息处理”等内容的解决方案大多只是放松基于分区或主题等的“有序”要求。或者,他们谈论单台机器上的并行化。我需要一个解决方案:
- 可以以任意顺序同时处理多条消息。
- 将始终按照它们到达系统的顺序发送消息,无论它们是按什么顺序处理的。
- 可从 Node.js 使用
- 可以在 HA 环境中运行(即它的多个实例同时在同一个消息队列上运行而不会出现不一致。)
我们目前的计划是使用 Redis 来维护按到达时间排序的正在进行和准备发送的消息集,这对我来说很有意义,但我无法在网上找到描述。大致是这样工作的:
- 收到消息后,该消息将被放入进行中集。
- 消息处理完成后,该消息将被放入准备发送集。
- 只要在进行中和准备发送集的前面有相同的消息,就可以发送该消息并且它会按顺序排列。
我会编写一个小型 Node 库,通过使用原子 Redis 事务的优先级队列式 API 来实现此行为。但这只是我自己想出来的,所以我想知道:是否还有其他技术(最好使用我们已经使用的 Node/Redis 堆栈)来解决重新排序无序消息的问题?或者我可以将这个问题用作研究关键字的其他术语吗?感谢您的帮助!
【问题讨论】:
-
重新排序随机分布在集群中的消息将是一项挑战。以这种方式排序消息的问题是异步网络模型假定消息无限延迟,因此它可能需要无限的资源来重新排序消息队列。您应该寻找一种对消息进行分区的方法,以便必须相互排序的消息进入一台机器。
-
感谢您的评论。我们已经在对消息进行分区,但我们希望根据我们的合同在不可能进一步分区的单个大容量分区中提高我们的性能。尽管处理任意大的进行中队列可能不切实际,但实际上这应该受到我们集群的大小的限制,集群的大小不会超过 10-20 台机器(到目前为止)。我们有一个单独的队列系统来存储等待处理器接收的消息。
标签: node.js redis message-queue distributed kue