【问题标题】:Optimized hive data aggregation using hive使用 hive 优化 hive 数据聚合
【发布时间】:2017-10-04 01:52:19
【问题描述】:

我有一个 hive 表(8000 万条记录),其架构如下(event_id、country、unit_id、date),我需要按照以下要求将此数据导出到文本文件: 1-行由 event_id 聚合(组合)。 2-聚合行必须按日期排序。

例如,具有相同 event_id 的行必须组合为列表列表,按日期排序。

使用 spark 完成这项工作的最佳性能明智的解决方案是什么?

注意:这应该是一个批处理作业。

【问题讨论】:

    标签: apache-spark optimization hive distributed-computing bigdata


    【解决方案1】:

    就性能而言,我认为最好的解决方案是编写一个 spark 程序(scala 或 python)来将底层文件读入 hive 表,进行转换,然后将输出写入文件。

    我发现在 spark 中读取文件比通过 spark 查询 hive 并将结果拉入数据帧要快得多。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-02-10
      • 1970-01-01
      • 2016-03-29
      • 1970-01-01
      • 1970-01-01
      • 2015-02-14
      相关资源
      最近更新 更多