【问题标题】:Why to use Apache beam spark runner if we can directly use Apache spark?如果我们可以直接使用 Apache spark,为什么还要使用 Apache beam spark runner?
【发布时间】:2020-06-30 11:14:31
【问题描述】:

我正在阅读有关 Apache Beam 的信息。在 apache Beam 中经历了各种跑步者。但我想知道如果有人可以直接使用 apache spark,为什么还要将 apache beam 与 spark runner 一起使用?

【问题讨论】:

    标签: apache-spark etl apache-beam


    【解决方案1】:

    因为Apache Beam统一的可移植的可扩展的,可以实现在任何执行引擎上运行的批处理和流式数据处理作业.这意味着您可以只为 流式处理批处理 作业编写一个代码,而不依赖于执行平台

    【讨论】:

    • 感谢侯赛因·托拉比。这里的“执行引擎”是什么意思?是dataflow、spark、splink等吗?
    • Hossein 意味着你可以在许多执行引擎(runner)中运行相同的代码,例如 Cloud Dataflow、Spark、Flink、Apex..
    • 虽然理论上可移植性承诺确实让您免于学习不同的 SDK,但实际上并非所有跑步者都是等价的。 Spark one(在数据集版本中)没有实现大多数窗口并触发来自 Beam 编程模型的概念。这是兼容性矩阵:beam.apache.org/documentation/runners/capability-matrix
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-11
    • 2017-07-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多