如果我们可以直接使用 Apache spark，为什么还要使用 Apache beam spark runner？答案

【问题标题】：Why to use Apache beam spark runner if we can directly use Apache spark?如果我们可以直接使用 Apache spark，为什么还要使用 Apache beam spark runner？
【发布时间】：2020-06-30 11:14:31
【问题描述】：

我正在阅读有关 Apache Beam 的信息。在 apache Beam 中经历了各种跑步者。但我想知道如果有人可以直接使用 apache spark，为什么还要将 apache beam 与 spark runner 一起使用？

【问题讨论】：

标签： apache-spark etl apache-beam

【解决方案1】：

因为Apache Beam 是统一的、可移植的和可扩展的，可以实现在任何执行引擎上运行的批处理和流式数据处理作业.这意味着您可以只为 流式处理 和 批处理 作业编写一个代码，而不依赖于执行平台

【讨论】：

感谢侯赛因·托拉比。这里的“执行引擎”是什么意思？是dataflow、spark、splink等吗？
Hossein 意味着你可以在许多执行引擎（runner）中运行相同的代码，例如 Cloud Dataflow、Spark、Flink、Apex..
虽然理论上可移植性承诺确实让您免于学习不同的 SDK，但实际上并非所有跑步者都是等价的。 Spark one（在数据集版本中）没有实现大多数窗口并触发来自 Beam 编程模型的概念。这是兼容性矩阵：beam.apache.org/documentation/runners/capability-matrix