【发布时间】:2021-12-19 14:21:44
【问题描述】:
PyFlink 性能与 Flink + Scala 相比如何?
大图。 目标是使用冷热层构建 Lambda 架构。 冷(批处理)层将使用 Apache Spark (PySpark) 实现。 但是对于 Hot (Streaming) Tier,有不同的选择:Spark Streaming 或 Flink。
因此 Apache Flink 是纯流而不是 Spark 的微批处理,我倾向于选择 Apache Flink。 但我唯一担心的是 PyFlink 的性能。它会比 PySpark 流式传输具有更少的延迟吗?是不是比 Scala 写的 Flink 代码慢?在什么情况下它会变慢?
提前谢谢你!
【问题讨论】:
标签: pyspark apache-flink spark-streaming pyflink