监控应用程序、正常运行时间、日志文件等 [关闭]答案

【问题标题】：monitoring applications, uptime, log files, etc [closed]监控应用程序、正常运行时间、日志文件等 [关闭]
【发布时间】：2010-11-04 04:27:05
【问题描述】：

您如何监控生产中的应用程序？日志、正常运行时间等...（我更喜欢外部应用程序，免费和开源）

例如，我想

能够在应用程序出现故障时发出警报
如果 CPU 使用率 > 超过设定的阈值，则发送警报
如果内存使用量 > 超过设定的阈值，则发送警报
发送错误消息警报
必须是可配置的，如果在 Y 时间段内发生 X 次，可能有些错误会发送警报

【问题讨论】：

这实际上更像是一个服务器故障问题。话虽这么说：Nagios、Netcool 等

标签： monitor

【解决方案1】：

许多人正在转向面向数据的解决方案。虽然大多数监控工具（nagios 等）都提供静态图表，但它们更加孤岛、传统视图 - 今天的应用程序高度分布式，事务跨越多个服务器，事情可能会变得疯狂。对于超越 kpi 和简单 api 的更高级功能，您需要查看机器数据解决方案，例如 Logscape 或 Splunk。它们允许您创建灵活的仪表板等，并且可以交互式地向下钻取以提供非常丰富的根本原因分析。看看这个页面上的一些应用程序LogscapeApps

【讨论】：

【解决方案2】：

我们有一个定制的内部监控软件。

它监控我们各种实时机器（和测试）上的事件日志，以了解我们的网络应用程序产生的错误。我们所有的 Web 应用程序都会将任何异常写入错误日志。它还 ping 服务器并监控驱动器空间。

每台开发机器上都有一个客户端应用程序轮询监视我们定义的所有服务器的服务器应用程序。此客户端应用程序在任务托盘中运行，并在出现任何异常时弹出消息，以便开发人员立即看到。我们还可以查看测试人员何时遇到错误，并且通常在测试人员报告错误时已经修复或至少正在进行修复。

服务器还会通过电子邮件发送到通讯组，以便我们在需要时可以在不工作时查看重要错误。

它还能够抑制预定义的异常/错误。

【讨论】：

【解决方案3】：

Nagios 是要走的路——有点学习曲线，但可定制且功能强大。还有一个服务器端守护进程，可以监控文件、磁盘空间等。

【讨论】：

【解决方案4】：

什么样的应用程序？

我过去使用过 Nagios。它是免费和开源的。它允许您设置警报、监控事件日志、监控特定于应用程序的日志，以及监控服务器基础架构和网络本身。

http://www.nagios.org/

【讨论】：

【解决方案5】：

谷歌分析？？？

【讨论】：

这是一个错误的答案。