【发布时间】:2019-04-25 11:36:15
【问题描述】:
sparklyr spark_apply 非常慢/根本没有响应。签入 spark UI 时,正在执行的阶段是在 utils.scala:204 处收集的。它正在执行 0/1(1 个运行)任务。应用 spark_apply 的数据框有 30 个分区。此任务没有任何进展,以及为什么正在执行单个任务
library(sparklyr)
library(dplyr)
config=spark_config()
config=c(config, list("spark.files"="hdfs:///bundle/packages.tar","spark.dynamicAllocation.enabled"="false","spark.executor.memory"="10g","spark.executor.cores"="4","spark.executor.instances"="7"))
sc <- spark_connect(master="yarn", app_name = "demo",config = config,version="2.3.0")
demo_data <- spark_read_csv(sc,name='demo_data',path = '/data.txt',delimiter = '\t',infer_schema = FALSE, columns = list(column1 = "integer"))
spark_apply(demo_data, function(df) df * 10, packages = "packages.tar" ,columns=list(column1="integer"))
【问题讨论】:
标签: apache-spark sparklyr