聊聊什么是监控系统

安全 应用安全
监控是衡量和管理技术系统的工具和流程,但更重要的是监控能将系统和应用程序生成的指标转换为对应的业务价值。监控不仅能检测和解决故障,还能帮助洞察关键的产品和技术决策,并衡量项目是否成功。

 本文转载自微信公众号「虞大胆的叽叽喳喳」,作者虞大胆。转载本文请联系虞大胆的叽叽喳喳公众号。

我们有zabbix和promethous两种监控系统,其实理解监控本质很重要,正好看到《promethous监控实战》这本书,第一章对于监控的定义描述的非常好,分上下篇说明下。

[[330382]]

监控是衡量和管理技术系统的工具和流程,但更重要的是监控能将系统和应用程序生成的指标转换为对应的业务价值。监控不仅能检测和解决故障,还能帮助洞察关键的产品和技术决策,并衡量项目是否成功。

监控的一些反模式

1:事后监控,将监控和运维工作是为应用程序的增值组件而非核心功能。

2:机械式监控

比如就监控主机的CPU,内存,而不监控应用程序是否正常运行的关键服务。

应该根据价值体系设计自上而下的监控系统,比如业务逻辑》应用程序》操作系统。

3:不够准确的监控

4:不频繁的监控

频繁的监控能够:

  • 识别故障和异常
  • 提供更细颗粒度的数据
  • 满足响应时间预期,你总不希望用户提出故障吧

尽量保存长时间的监控数据,做出长期的趋势图。

5:缺少自动化和自服务

监控系统没做好的原因可能是很难实现,比如开发人员去做监控就很难,另外不成熟的监控系统可能需要手动维护,导致监控系统本身出现问题。

所以好的监控系统:

  • 全局视角,从业务层依次展开监控
  • 协助故障诊断
  • 基础设施,是开发人员的信息源头
  • 内置于应用程序设计、开发和部署的生命周期中。

监控机制

1:探针和内省

内省将事件、日志和指标发送到监控工具。而探针是查询应用程序的外部特征,比如端口是否开启。

2:拉取和推送

是将数据发完监控系统,还是监控系统主动拉取数据

3:监控数据的类型

数据主要有两种形式:

(1)指标,比如promethous就是典型的事件序列数据存储,用于应用程序度量的状态。

(2)日志,日志数据量大,一般是文本的事件,它们对于故障诊断最有用,比如ELK比较擅长日志收集和管理。

监控服务层级

来自于Google的经验,自上而下:

  • 产品设计
  • 软件开发
  • 容量规划
  • 测试和发布
  • 事后总结/问题根源分析
  • 应急事件处理
  • 监控

 

责任编辑:武晓燕 来源: 虞大胆的叽叽喳喳
相关推荐

2020-06-19 08:04:23

监控系统

2021-07-20 08:03:43

微服务应用程序

2021-07-26 05:10:13

JavaJakarta EEJSR

2021-02-05 08:42:21

云原生系统方式

2022-03-18 10:43:12

WebSocketHTML5TCP 连接

2023-02-26 14:34:18

OSW操作系统监控

2020-07-02 14:30:12

SDNSDON交换机

2022-10-28 08:46:57

变革型领导IT

2023-05-14 19:18:07

2022-03-17 21:30:31

BRAS宽带服务器

2021-03-08 23:45:33

数字化转型5G

2021-11-26 00:06:04

Go函数代码

2023-09-13 07:02:23

2021-11-11 09:27:02

技术RedisMySQL

2022-05-31 09:17:08

通信网络技术

2020-11-03 07:09:31

5GCPEWi-Fi

2020-08-07 14:28:04

裸金属服务器云服务

2022-02-26 19:05:01

AI人工智能机器学习

2022-08-01 07:57:03

数组操作内存

2022-05-23 11:03:53

云原生技术DockerIstio
点赞
收藏

51CTO技术栈公众号