【发布时间】:2019-09-08 05:56:30
【问题描述】:
我们目前正在使用 AWS lambda 处理每日移动应用程序日志数据并将其发布到 redshift。 lambda 构造数据,但它本质上是原始的。下一步是将日志数据实际处理为会话等,以用于报告目的。最后一步是做一些特征工程,然后将数据用于模型训练。
步骤是
- 结构化原始数据以进行存储
- 会话化数据以进行报告
- 用于建模的特征工程
对于第 2 步,我正在考虑使用 Quicksight 和/或 Kibana 创建报告仪表板。但据我所知,典型的堆栈是使用 logstash 进行日志处理,然后将其转到 elasticsreach,最后转到 Kibana/Quicksight。由于我们已经通过 lambda 处理了初始日志处理,是否可以跳过这一步,直接将其传递给 elasticsearch?如果是这样,这种情况发生在哪里 - 在 lambda 函数中还是在它被存储在表中之后的 redshift 中?或者,elasticsearch 可以只从我将要摄取的数据发布到红移表的同一个 s3 中读取它吗?
【问题讨论】:
-
当然可以跳过。它只是广泛(或者他们说)使用了组件。这个缩写只是一个花哨的词。你可以使用任何适合你的东西!
-
甚至更多(这只是个玩笑!!!)您可以使用未来的存储 - CSV 文件并将它们输出到控制台!
标签: amazon-web-services elasticsearch amazon-s3 logstash kibana