【问题标题】:Using spark2-submit with Apache Airflow将 spark2-submit 与 Apache Airflow 一起使用
【发布时间】:2018-07-10 01:27:35
【问题描述】:

对于我的工作流程,我需要使用 spark2 运行作业。 我没有找到 SparkSubmitOperator 的任何示例或好的文档,但无论如何都尝试将它与

一起使用
spark_submit = SparkSubmitOperator(
task_id='task_id',
application=string_with_path_to_jar_file,
conf={
    'spark.sql.warehouse.dir': 'file:/tmp/',
    'spark.hadoop.fs.permissions.umask-mode': '002',
    'spark.serializer': 'org.apache.spark.serializer.KryoSerializer',
    'spark.network.timeout': '360s',
    'spark.yarn.executor.memoryOverhead': '5g',
    'spark.dynamicAllocation.maxExecutors': '100'
},
env_vars={
    'master': 'yarn',
    'deploy-mode': 'client'
},
java_class=some_java_class,
executor_memory='12G',
driver_memory='3G',
num_executors=50,
application_args={'app.properties'})

当我运行我的工作时,我收到以下警告:

.local/lib/python2.7/site-packages/airflow/models.py:2160: PendingDeprecationWarning: Invalid arguments were passed to SparkSubmitOperator. Support for passing such arguments will be dropped in Airflow 2.0. Invalid arguments were:  
[2018-07-09 18:01:53,947] {base_task_runner.py:98} INFO - Subtask: *args: ()  
[2018-07-09 18:01:53,947] {base_task_runner.py:98} INFO - Subtask: **kwargs: {'env_vars': {'deploy-mode': 'client', 'master': 'yarn'}}  
[2018-07-09 18:01:53,947] {base_task_runner.py:98} INFO - Subtask:   category=PendingDeprecationWarning  

现在我的问题是:

我可能以错误的方式使用 SparkSubmitOperator,是否有任何好的示例/文档可以使用它,或者有人知道我做错了什么?

【问题讨论】:

  • 一定要使用env_vars吗?在我看来,这就是这里的全部问题。
  • 这就是问题所在,我不得不把它放到 webUI 的 Connections->spark_default 配置中。
  • 但如果可以选择从气流设置部署模式会很好。有没有推荐的方法直接从运营商那里设置?

标签: python apache-spark airflow


【解决方案1】:

给你,SparkSubmitOperator 的 sn-p:

   SparkSubmitOperator(
   task_id='Extraction',
   application='../scala-2.11/ssot_2.11-0.1.jar',
   conn_id='spark_default',
   driver_class_path='../mysql-connector-java/jars/mysql-connector-java-8.0.17.jar',
   jars='../mysql-connector-java/jars/mysql-connector-java-8.0.17.jar',
   dag=dag)

还有spark_default 气流连接的详细信息。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-08
    • 1970-01-01
    • 2023-02-01
    • 1970-01-01
    相关资源
    最近更新 更多