prometheus + altermanager 实现 服务服务存活监控

本文介绍了如何利用Prometheus和Alertmanager搭建服务存活监控系统。主要讲解了Alertmanager的配置文件设置,包括send_resolved、route、receiver、group_by等关键参数,以及告警分组和重复间隔的策略。同时提到了rules配置文件在prometheus.yml中的创建,以及Alertmanager的抑制规则(inhibit_rules),用于避免不必要的告警通知。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • prometheus 官网 下载prometheus和altermanager

  • altermanager配置文件:altermanager.yml 配置文件
route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  receiver: 'email.notice'
receivers:
- name: 'web.hook'
  webhook_configs:
  - url: 'http://127.0.0.1:5001/'
- name: 'email.notice'
  email_configs:
  - to: '[email protected]'
    smarthost: 'smtp.exmail.qq.com:465'
    from: '[email protected]'
    auth_username: '[email protected]'
    auth_password: 'xxxxxx'
    require_tls: false


inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

send_resolved 当问题解决了是否也要通知一下

route 是个重点,告警内容从这里进入,寻找自己应该用那种策略发送出去
receiver 一级的receiver,也就是默认的receiver,当告警进来后没有找到任何子节点和自己匹配,就用这个receiver
group_by 告警应该根据那些标签进行分组
group_wait 同一组的告警发出前要等待多少秒,这个是为了把更多的告警一个批次发出去
group_interval 同一组的多批次告警间隔多少秒后,才能发出
repeat_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值