【问题标题】:How to handle reprocessing scenarios in AWS Kinesis?如何处理 AWS Kinesis 中的再处理场景?
【发布时间】:2018-07-27 04:21:23
【问题描述】:

我正在探索 AWS Kinesis 的数据处理要求,用基于流的方法替换旧的批处理 ETL 处理。

该项目的关键要求之一是能够在以下情况下重新处理数据

  • 发现并修复了一个错误,并重新部署了应用程序。数据需要从一开始就重新处理。
  • 添加了新功能,需要全部或部分重新处理历史记录。

Kafka 的场景在这里得到了很好的记录 - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios

我在 Kinesis 中看到了基于时间戳的 ShardIterator,我认为可以使用 Kinesis API 构建类似 Kafka 的 resetter-tool,但如果这样的东西已经存在,那就太好了。即使没有,也可以向解决过类似问题的人学习。

那么,是否有人知道 Kinesis 中可用的任何现有资源、模式和工具?

【问题讨论】:

  • 嗨 Rahul,您尝试过 kinesis VCR,它对您有用吗,如果您有不同的解决方案,请分享相同的解决方案。 - 谢谢

标签: amazon-web-services amazon-kinesis amazon-kcl


【解决方案1】:

我遇到了想要重新处理 kinesis 处理的记录的情况,我使用 Kinesis-VCR 重新处理 kinesis 生成的记录。

Kinesis-VCR 记录 kinesis 流并维护 kinesis 在给定时间处理的文件的元数据。

稍后,我们可以使用重新处理/重播任何给定时间范围内的事件。

这里是相同的 github 链接。

https://github.com/scopely/kinesis-vcr

让我知道这是否适合你。

感谢和问候, 斯里维涅什 KN

【讨论】:

    猜你喜欢
    • 2022-07-08
    • 2020-03-28
    • 2012-02-28
    • 1970-01-01
    • 2015-04-08
    • 1970-01-01
    • 2014-05-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多