【发布时间】:2019-09-04 13:58:51
【问题描述】:
我在 Spark Dataframe 中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项会给我最好的表现?
- 将此数据从 SPARK Dataframe 保存到 hdfs 并在外部创建 Hive 桌子在上面吗?
- 将数据从 SPARK Dataframe 写入 Hive 表 直接?
哪一个会提供最好的性能,为什么?
【问题讨论】:
-
我看不出它们之间有太大的区别。无论使用哪种方式,spark 都会将数据写入 hdfs 文件并让 hive 目录加载新的元数据。
标签: apache-spark hadoop hive bigdata