👉 本文目标:了解 AlertManager 告警系统,学会安装、配置,便于后续告警。
👀 本文内容:
AlertManager 概述
Prometheus 告警实现
Prometheus 告警实现包括如下:
- 1️⃣ 定义告警规则:在 Prometheus 配置文件中定义告警规则
- 2️⃣ 与 AlertManager 通讯,发送告警:在 Prometheus 配置文件中配置 AlertManager 实例
- 3️⃣ 配置 AlertManager,由 AlertManager 管理(去重、分组、路由)告警并使用邮件、聊天平台等方式发送通知
Alertmanager 核心概念
- 分组(grouping):把多个具备特征的合并到一个里面去。用于大规模系统失败,触发成千上万告警的时候。比如网络出现,导致大量应用无法连接数据库。这些告警就可以归一到一个通知里面去。
- 压制(inhibition):如果某些其它的告警已经触发了,那这个告警就需要被压制住,不要再发了。比如整个都不可达了,然后特定告警已经触发,那么就可以把其它关注于这个集群的告警