【发布时间】:2018-11-01 09:58:14
【问题描述】:
对从 firehose 写入 s3 的事件进行重复数据删除的最佳且最节省成本的方法是什么?
我的场景:我有多个源,它们将它们的事件作为 JSON 写入 kinesis firehose 流。流将事件写入 s3 存储桶。应该用 athena 分析事件。
所以,因为 firehose 不能保证没有重复,我必须以某种方式对数据进行重复数据删除。而且我还必须以某种方式将它们划分为雅典娜。
到目前为止我想出的方法是:
- 使用 EMR 集群(例如每天)执行去重和分区。但这是成本密集型的,而且不宜多于一天运行,以节省成本
- 使用计划的 lambda 函数,该函数对流动的时间窗口进行重复数据删除。还有另一个 lambda,它对数据进行分区。成本:我不知道,因为以前从未使用过 lambda。
有没有更好、更优雅、更省钱的方法?
【问题讨论】:
标签: amazon-athena amazon-kinesis-firehose