【发布时间】:2015-09-25 14:15:00
【问题描述】:
我正在开发一个包含以下组件的网络应用程序:
- Apache Spark 在具有 3 个节点(spark 1.4.0、hadoop 2.4 和 YARN)的集群上运行
- Django Web 应用服务器
Django 应用将创建“按需”火花作业(它们可以是并发作业,具体取决于使用该应用的用户数量)
我想知道是否有任何方法可以从 Django 中的 python 代码提交 spark 作业?我可以在 django 中集成 pyspark 吗?或者我可以直接调用 YARN API 来提交作业吗?
我知道我可以使用 spark-submit 脚本向集群提交作业,但我试图避免使用它。 (因为它必须是从代码中执行的 shell 命令,并且这样做不是很安全)
任何帮助将不胜感激。
非常感谢,
JG
【问题讨论】:
标签: django apache-spark hadoop-yarn