使用 hive 优化 hive 数据聚合答案

【问题标题】：Optimized hive data aggregation using hive使用 hive 优化 hive 数据聚合
【发布时间】：2017-10-04 01:52:19
【问题描述】：

我有一个 hive 表（8000 万条记录），其架构如下（event_id、country、unit_id、date），我需要按照以下要求将此数据导出到文本文件： 1-行由 event_id 聚合（组合）。 2-聚合行必须按日期排序。

例如，具有相同 event_id 的行必须组合为列表列表，按日期排序。

使用 spark 完成这项工作的最佳性能明智的解决方案是什么？

注意：这应该是一个批处理作业。

【问题讨论】：

【解决方案1】：

就性能而言，我认为最好的解决方案是编写一个 spark 程序（scala 或 python）来将底层文件读入 hive 表，进行转换，然后将输出写入文件。

我发现在 spark 中读取文件比通过 spark 查询 hive 并将结果拉入数据帧要快得多。

【讨论】：