监控解决方案构思

xiangys0134 发布于 3 年前

一、监控系统简述

1.1 运维监控系统简介

为什么需要监控？大体可归纳为如下三方面：1；任何平台在运行过程中不可避免地会出现网络延迟、系统宕机、程序异常退出、网站访问失败等情况。2；应用在7*24小时运行过程中需要有探测其状态的机制。3；网站维护人员(统称：含开发、运维、运营等相关工作人员)需要量化API访问状态码及响应时间。

监控平台常规用以解决如下问题：监控告警，必要时在用户发现、反馈问题之前解决某些故障。指标量化(底层资源、应用程序、访问延迟等)，评估及扩容。

1.2 监控系统分类

目前市面常见的监控系统有Prometheus、Zabbix、Nagios等。其大对应的应用场景为容器云平台、基础服务器集群、大型网络监控。

1.3 监控指标分类

一套监控体系常规需要实现的指标如下：

使用率：关注系统资源的使用情况。这里的资源主要包括但不限于CPU、内存、网络、磁盘等。100%的使用率通常是系统性能瓶颈的标志。
饱和度：系统承载量，例如CPU的平均运行排队长度，任何资源在某种程度上的饱和都可能导致系统性能的下降。
错误：错误数。例如HTTP 500错误数等显式失败。

1.4 监控分层介绍

由上而下分别分业务层监控、应用层监控、基础资源层监控。

最后修改日期: 2024年1月6日

监控

作者

留言

撰写回覆或留言取消回复