【发布时间】:2021-04-30 15:22:48
【问题描述】:
我正在尝试读取 text.gz 文件,对其进行重新分区并进行一些转换,但是当我看到 DAG 时,stag1 正在读取数据并仅对 1 个任务进行转换,因此需要时间。
我不明白为什么只对一项任务进行处理,我如何在读取数据后拆分它。 stag1 的代码
df1 =spark.read.text("text-04-14.log.gz")
df1 = df1.repartition(20)
text_to_json_udf = udf(text_to_json, ArrayType(StringType()))
df1 = df1.select(text_to_json_udf(df1.value).alias("arr_cols"))
df1 = df1.dropna()
cols = ['k1', 'k2', 'k3', 'k4', 'k5', 'k6', 'k7', 'k7', 'k8', 'k9']
df1 = df1.select([df1.arr_cols[i].alias(k) for i, k in enumerate(cols)])
【问题讨论】:
标签: scala apache-spark pyspark amazon-emr