【发布时间】:2015-06-30 00:01:38
【问题描述】:
我的团队正在 Amazon EC2 实例上部署一个新集群。 经过一番研究,我们决定使用 Apache Mesos 作为集群管理器,使用 Spark 进行计算。
我们问自己的第一个问题是,对于每个不同的框架,从所有机器收集日志的最佳方式是什么。 到目前为止,我们开发了一些自定义的 bash/python 脚本,它们从预定义的位置收集日志,压缩它们并将压缩文件发送到 S3。 这种轮换由 cron 作业激活,该作业每小时运行一次。
我一直在寻找“最好”(或标准)的方法来做到这一点。 我找到了Apache Flume,它也是用于日志的数据收集器,但我不明白如何将它集成到 Mesos 集群中以收集日志(以及用于 Spark)。
我发现this“类似”问题,但解决方案不是开源的或不再受支持。
是否有更好的方式来轮换日志或我缺少的标准方式?
非常感谢
【问题讨论】:
-
你看过logstash(结合Elasticsearch和Kibana)吗? elastic.co/products/logstash它是开源的(apache 2)并受支持。
-
logstash 是一个非常不错的解决方案,但是在架构中添加 Elasticsearch 和 Kibana 会增加系统的复杂性(我们正在努力使其尽可能简单)
标签: logging apache-spark flume mesos