Spark 性能从 Dataframe 保存到 hdfs 或 hive 的大型数据集答案

【问题标题】：Spark performance a large data-set save from Dataframe to hdfs or hiveSpark 性能从 Dataframe 保存到 hdfs 或 hive 的大型数据集
【发布时间】：2019-09-04 13:58:51
【问题描述】：

我在 Spark Dataframe 中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项会给我最好的表现？

将此数据从 SPARK Dataframe 保存到 hdfs 并在外部创建 Hive 桌子在上面吗？
将数据从 SPARK Dataframe 写入 Hive 表直接？

哪一个会提供最好的性能，为什么？

【问题讨论】：

我看不出它们之间有太大的区别。无论使用哪种方式，spark 都会将数据写入 hdfs 文件并让 hive 目录加载新的元数据。

标签： apache-spark hadoop hive bigdata

【解决方案1】：

最好直接将SPARK Dataframe中的数据写入Hive表。

存储在 Hive 表中的所有数据都作为文件存储在 HDFS 中。

在 HDFS 中保存数据并在其上创建 Hive 外部表似乎是一项双重工作。

Spark 具有将数据框中的数据直接保存到 Hive 表的功能，前提是您必须使用数据框中的架构创建一个 Hive 表，这要容易得多。

Spark 将数据从数据帧写入 hdfs 或 Hive 表的性能取决于您拥有的集群设置。

【讨论】：