区别主要在于处理数据流的抽象级别。
Apache Storm 的级别要低一些,它处理连接在一起的数据源 (Spout) 和处理器 (Bolt),以响应式方式对单个消息执行转换和聚合。
有一个Trident API 从这个低级别的消息驱动视图中抽象了一点,变成了更多的聚合查询,比如构造,这使得事情更容易集成在一起。 (还有一个类似 SQL 的接口用于查询数据流,但仍标记为实验性的。)
来自文档:
TridentState wordCounts =
topology.newStream("spout1", spout)
.each(new Fields("sentence"), new Split(), new Fields("word"))
.groupBy(new Fields("word"))
.persistentAggregate(new MemoryMapState.Factory(), new Count(), new Fields("count"))
.parallelismHint(6);
Apache Flink 具有更类似于功能的接口来处理事件。如果您习惯于 Java 8 风格的流处理(或其他函数式风格的语言,如 Scala 或 Kotlin),这看起来会非常熟悉。它还有一个不错的基于 Web 的监控工具。
它的好处是它具有用于按时间窗口等聚合的内置结构。(在 Storm 中,您可能也可以使用 Trident 来做到这一点)。
来自文档:
DataStream<WordWithCount> windowCounts = text
.flatMap(new FlatMapFunction<String, WordWithCount>() {
@Override
public void flatMap(String value, Collector<WordWithCount> out) {
for (String word : value.split("\\s")) {
out.collect(new WordWithCount(word, 1L));
}
}
})
.keyBy("word")
.timeWindow(Time.seconds(5), Time.seconds(1))
.reduce(new ReduceFunction<WordWithCount>() {
@Override
public WordWithCount reduce(WordWithCount a, WordWithCount b) {
return new WordWithCount(a.word, a.count + b.count);
}
});
当我评估这两者时,我选择了 Flink,只是因为当时感觉它记录得更好,而且我更容易开始使用它。风暴稍微模糊一些。有一个course on Udacity 让我更了解它,但最终还是觉得 Flink 更适合我的需求。
您可能还想看看这个answer here,虽然有点旧,所以这两个项目从那时起一定已经发展了。