【发布时间】:2018-03-15 18:45:54
【问题描述】:
我有下一个代码,我在其中对过滤后的输入数据进行重新分区并将其持久化:
val df = sparkSession.sqlContext.read
.parquet(path)
.as[struct1]
.filter(dateRange(_,lowerBound,upperBound))
.repartition(nrInputPartitions)
.persist()
df.count
我希望所有数据都存储在内存中,但我在 Spark UI 中得到以下信息:
存储
Size in Memory 424.2 GB Size on Disk 44.1 GB
是不是因为某个partition没有足够的Memory,Spark自动切换到MEMORY_AND_DISK存储级别?
【问题讨论】:
标签: scala apache-spark