【问题标题】:Run R script with Rscript vs spark-submit使用 Rscript 与 spark-submit 运行 R 脚本
【发布时间】:2017-12-11 08:19:54
【问题描述】:

我不明白使用 Rscript 与 spark-submit 运行 R 文件之间的区别。

在文件中我传递了连接到集群的选项,所以我不知道使用 spark-submit 有什么好处。

sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))

创建 spark 会话后,我在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的 parquet 文件。

我尝试了两种运行我的程序的方式,它们做的事情和我想的完全一样。

提前致谢

【问题讨论】:

标签: r apache-spark sparkr


【解决方案1】:
  • 将 SparkR 程序作为 R 脚本调用只是将其评估为纯 R 程序。简单的情况下也可以,但也有限制。
  • 使用spark-submit 允许您设置许多 Spark 特定选项,包括但不限于主 URI、部署模式、内存、内核、配置选项、jar、包等。

    其中大部分可以使用 Spark 配置设置或在脚本中硬编码,但spark-submit 提供了更大的灵活性。

这同样适用于其他支持的语言(Java、Python、Scala)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-05-22
    • 2014-05-26
    • 2020-04-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-04-22
    相关资源
    最近更新 更多