【问题标题】:Reducing Apache Spark Startup Time减少 Apache Spark 启动时间
【发布时间】:2018-09-18 20:05:26
【问题描述】:

我正在运行一个独立 Spark 集群并在客户端模式下使用spark-submit 提交我的应用程序(用SparkR 编写)。我有一组应用程序,我必须根据用户的输入运行,所以我不能让它们运行。每次提交申请并开始处理数据需要 15-20 秒。

可以以任何方式减少此时间吗?我在驱动程序机器上阅读了有关having a webserver 的信息,但不确定如何做到这一点。另外,我没有使用任何集群管理器(如 YARN),只是一个独立的集群。

另外,客户端或集群上的资源(例如 CPU 内核和内存)是否会影响此启动时间?

【问题讨论】:

    标签: apache-spark spark-submit


    【解决方案1】:

    使用 Spark 作业服务器在应用程序之间共享 SparkContext 可以帮助您缩短启动时间。 (我不确定你是否需要这个,因为你大约 20 秒的启动时间似乎很短。)

    提供上下文共享的流行 Spark 作业服务器是:

    另外,客户端或集群上的资源(例如 CPU 内核和内存)是否会影响此启动时间?

    不是真的。可用资源应该只影响应用程序的执行时间。

    【讨论】:

    • 您提到的作业服务器似乎不支持 SparkR。您是否知道其他任何支持 R 的服务器?
    • 参考 SparkR 示例 here。 Livy 确实支持提交 SparkR 作业。
    猜你喜欢
    • 2018-04-12
    • 2013-08-29
    • 1970-01-01
    • 1970-01-01
    • 2016-10-25
    • 2017-12-02
    • 1970-01-01
    • 1970-01-01
    • 2016-02-07
    相关资源
    最近更新 更多