【发布时间】:2019-10-25 04:27:13
【问题描述】:
如果我像这样创建数据框:
val usersDF = spark.read.csv("examples/src/main/resources/users.csv")
Spark 是否将数据(从 csv 文件)实际加载(/复制)到内存中,或者作为分布式数据集加载到底层文件系统中?
我问是因为在加载 df 后,基础文件数据的任何更改都不会反映在针对数据框的查询中。 (当然,除非通过调用上述代码行再次重新加载数据框。
我在 Databricks 笔记本上使用交互式查询。
【问题讨论】:
标签: apache-spark apache-spark-sql in-memory