【发布时间】:2018-03-17 10:03:42
【问题描述】:
您好,我正在读取一个包含 json 格式记录的序列文件,当读取转换为 Dataframe 的 json 记录时,会导致数据倾斜问题,正如您可以从 Spark UI 屏幕截图中看到的那样。如何避免这种数据倾斜问题?
val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text] )
val df = sqlCntxt.read.json(src)
261 个已完成的任务
Metric Min 25th Percentile Median 75th Percentile Max
Duration 47 ms 0.1 s 5 s 25 s **1.0 min**
GC Time 0 ms 0 ms 0 ms 0.1 s 0.7 s
Input Size/ Records 438.0 B/1 1013.0 B /2 1776.0 B/ 12 128.2 MB / 277608 **128.5 MB / 1162416**
Shuffle Write size/Records 240.0 B/1 446.0 B /1 509.0 B / 1 622.0 B /1 **2.3 KB /1**
【问题讨论】:
-
您发布的代码不会进行类型检查和编译。
标签: apache-spark apache-spark-sql spark-dataframe spark-streaming apache-spark-mllib