【发布时间】:2017-12-11 08:19:54
【问题描述】:
我不明白使用 Rscript 与 spark-submit 运行 R 文件之间的区别。
在文件中我传递了连接到集群的选项,所以我不知道使用 spark-submit 有什么好处。
sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))
创建 spark 会话后,我在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的 parquet 文件。
我尝试了两种运行我的程序的方式,它们做的事情和我想的完全一样。
提前致谢
【问题讨论】:
-
您是如何在 R 文件中加载库的?我正在努力解决这个问题 - stackoverflow.com/questions/54114564/…
标签: r apache-spark sparkr