要实现上面的需求很简单,夜莺监控的数据库表Alert_cur_event保存了我们所需要的当前未处理的告警总数,而且夜莺监控也提供了查询未处理告警的面板,而对于告警恢复时候的值我们只需要根据自定义的恢复Promql即可查询。
我之前用 Prometheus+Altermanager 这一套的时候,为每个团队弄一个钉钉群,然后打了一堆的标签,匹配不同的标签发送到不同的群,如果要做告警升级的话,很多时候都是通过阈值升级来完成,但是同一个告警通过时间来升级就不好办。
在线咨询:
手机:13798586780
QQ/微信:1074760229
QQ群:551893940
工作时间:工作日9:00-18:00,节假日休息