【发布时间】:2021-10-17 21:19:42
【问题描述】:
基于性能比较,Apache Flink 和 Apache Storm 在实时处理方面有没有真正的基准?
另外,如果我想进行这个性能比较并自己实现它,是否有任何流 API(如 twitter API)提供比 twitter 更高的吞吐量并且是开源的?
谢谢!
【问题讨论】:
标签: apache-flink benchmarking apache-storm flink-streaming
基于性能比较,Apache Flink 和 Apache Storm 在实时处理方面有没有真正的基准?
另外,如果我想进行这个性能比较并自己实现它,是否有任何流 API(如 twitter API)提供比 twitter 更高的吞吐量并且是开源的?
谢谢!
【问题讨论】:
标签: apache-flink benchmarking apache-storm flink-streaming
一般来说,流处理有一些基准 - 但它们并不总是比 RDBMS 的基准更广泛适用或可访问。
我将尝试在这里列出一些对我有帮助的基准测试工作:
最近为 Storm 和 Flink 实施的基准测试框架是 Yahoo Streaming Benchmark。它具有使用 Kafka 和 Redis 和预定义查询/拓扑的固定内部架构。无论如何,这是一个很好的起点。
Karimov et al 有一篇关于这些系统的基准测试的好论文。值得一读,因为它确实有助于理解可能的指标。不幸的是,我找不到任何关于他们使用的工作负载(数据和查询)的实现或更多信息——所以我想说,这对理解更有帮助。
van Dongen et al 正在对几个流处理系统进行更深入的分析,并在 github 上提供它们的源代码。不幸的是,Storm 没有实现。但无论如何,关于如何构建这样一个框架,有一些有趣的想法和贡献。
如您所见,流处理在您设置和基准测试系统的方式方面具有高度多样性...
【讨论】: