【问题标题】:Spark performance a large data-set save from Dataframe to hdfs or hiveSpark 性能从 Dataframe 保存到 hdfs 或 hive 的大型数据集
【发布时间】:2019-09-04 13:58:51
【问题描述】:

我在 Spark Dataframe 中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项会给我最好的表现?

  • 将此数据从 SPARK Dataframe 保存到 hdfs 并在外部创建 Hive 桌子在上面吗?
  • 将数据从 SPARK Dataframe 写入 Hive 表 直接?

哪一个会提供最好的性能,为什么?

【问题讨论】:

  • 我看不出它们之间有太大的区别。无论使用哪种方式,spark 都会将数据写入 hdfs 文件并让 hive 目录加载新的元数据。

标签: apache-spark hadoop hive bigdata


【解决方案1】:

最好直接将SPARK Dataframe中的数据写入Hive表。

存储在 Hive 表中的所有数据都作为文件存储在 HDFS 中。

在 HDFS 中保存数据并在其上创建 Hive 外部表似乎是一项双重工作。

Spark 具有将数据框中的数据直接保存到 Hive 表的功能,前提是您必须使用数据框中的架构创建一个 Hive 表,这要容易得多。

Spark 将数据从数据帧写入 hdfs 或 Hive 表的性能取决于您拥有的集群设置。

【讨论】:

    猜你喜欢
    • 2018-01-09
    • 1970-01-01
    • 2016-10-17
    • 2015-11-05
    • 1970-01-01
    • 2012-07-17
    • 1970-01-01
    • 2018-06-22
    • 1970-01-01
    相关资源
    最近更新 更多