【发布时间】:2017-10-04 01:52:19
【问题描述】:
我有一个 hive 表(8000 万条记录),其架构如下(event_id、country、unit_id、date),我需要按照以下要求将此数据导出到文本文件: 1-行由 event_id 聚合(组合)。 2-聚合行必须按日期排序。
例如,具有相同 event_id 的行必须组合为列表列表,按日期排序。
使用 spark 完成这项工作的最佳性能明智的解决方案是什么?
注意:这应该是一个批处理作业。
【问题讨论】:
标签: apache-spark optimization hive distributed-computing bigdata