【发布时间】:2019-05-17 20:06:08
【问题描述】:
我希望有人能澄清 TensorFlow 及其依赖项(Beam、AirFlow、Flink 等)之间的关系
我指的是 TFX 主页面: https://www.tensorflow.org/tfx/guide#creating_a_tfx_pipeline_with_airflow 等等。
在示例中,我看到了三个变体:
https://github.com/tensorflow/tfx/tree/master/tfx/examples/chicago_taxi_pipeline
taxi_pipeline_flink.py、taxi_pipeline_kubeflow.py、taxi_pipeline_simple.py
BEAM 示例?
没有“BEAM”示例,也很少描述其用途。
假设taxi_pipeline_simple.py 即使没有安装气流也会运行是否正确?我认为不是,因为它使用“AirflowDAGRunner”。如果没有,那么您可以仅使用 BEAM 及其运行器运行 TFX 吗?如果是这样,为什么没有这样的例子?
Flink 示例
在taxi_pipeline_flink.py 中,使用了 AirflowDAGRunner。我假设使用 AirFlow 作为编排器,而编排器又使用 Flink 作为其执行器。对吗?
气流示例
该页面指出 BEAM 是必需的依赖项,但气流没有将梁作为其执行者之一。它只有 SequentialExecutor、LocalExecutor、CeleryExecutor、DaskExecutor 和 KubernetesExecutor。因此,BEAM 是否仅在不使用 Airflow 时才需要?使用气流时,如果需要,光束的用途是什么?
感谢您提供任何见解。
【问题讨论】:
-
觉得这是一个 tfx 特有的问题,你试过他们的用户组吗?
-
非常好 :) TensorFlow 使 stackoverflow 成为他们事实上的 Q/A 论坛。我认为没有响应的原因是 TFX 是相当新的,对许多人来说它是多余的。
-
问题是否仍然是最新的?现在,我可以看到一个 tax_pipeline_beam.py 示例,它不使用气流(如预期的那样)。此外,关于光束和气流:tfx 总是使用 Beam,在这种情况下用于某些组件中的数据操作。然后,您有了编排工具,Beam 和 Airflow 也可以用作其中之一。
-
将评论作为更完整的答案放在下面..
标签: python tensorflow apache-flink airflow apache-beam