【发布时间】:2020-03-25 13:26:33
【问题描述】:
我们通常将我们的代码存储在 s3 中并从气流中调用它以将它们添加为 emr 中的新步骤。 spark-submit 可以从 s3 读取数据(如 jar 和文件)。但是我怎样才能从气流中调用 s3 中存在的 python 脚本呢?这是一个简单的 boto3 脚本。请给我一些指导。
【问题讨论】:
标签: python amazon-web-services amazon-s3 airflow
我们通常将我们的代码存储在 s3 中并从气流中调用它以将它们添加为 emr 中的新步骤。 spark-submit 可以从 s3 读取数据(如 jar 和文件)。但是我怎样才能从气流中调用 s3 中存在的 python 脚本呢?这是一个简单的 boto3 脚本。请给我一些指导。
【问题讨论】:
标签: python amazon-web-services amazon-s3 airflow
我认为这是一种通过 ariflow 实际运行 emr 作业的方式。为什么您甚至需要添加步骤。您最简单的选择是使用连接到 emr 的 ssh 运算符,然后通过 ssh 运算符执行 spark-submit。 spark-submit 将从 s3 获取您的代码,然后运行作业。
【讨论】: