一、监控系统简述

1.1 运维监控系统简介

为什么需要监控?大体可归纳为如下三方面:1;任何平台在运行过程中不可避免地会出现网络延迟、系统宕机、程序异常退出、网站访问失败等情况。2;应用在7*24小时运行过程中需要有探测其状态的机制。3;网站维护人员(统称:含开发、运维、运营等相关工作人员)需要量化API访问状态码及响应时间。

监控平台常规用以解决如下问题:监控告警,必要时在用户发现、反馈问题之前解决某些故障。指标量化(底层资源、应用程序、访问延迟等),评估及扩容。

1.2 监控系统分类

目前市面常见的监控系统有Prometheus、Zabbix、Nagios等。其大对应的应用场景为容器云平台、基础服务器集群、大型网络监控。

1.3 监控指标分类

一套监控体系常规需要实现的指标如下:

  • 使用率:关注系统资源的使用情况。这里的资源主要包括但不限于CPU、内存、网络、磁盘等。100%的使用率通常是系统性能瓶颈的标志。
  • 饱和度:系统承载量,例如CPU的平均运行排队长度,任何资源在某种程度上的饱和都可能导致系统性能的下降。

  • 错误:错误数。例如HTTP 500错误数等显式失败。
1.4 监控分层介绍

由上而下分别分业务层监控、应用层监控、基础资源层监控。

最后修改日期: 2024年1月6日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。