告警OnCall事件中心建设方法白皮书
一线人员没有及时响应的原因可能有很多,比如手机静音了没有听到,晚上睡着了,或者临时出去有事忘 带手机了等等。这个时候系统发现某个告警一直没有恢复,也没有被认领,一段时间之后,就应该通知值 班人员的领导或者二线备份人员,如果二线人员也迟迟没有响应,就应该继续往上升级。 告警升级机制需要认领功能的配合,也就是一线人员收到告警之后要通过某种机制告诉系统:“我已知晓 告警,现在我开始处理了,你不要升级了0 码力 | 23 页 | 1.75 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+ 600+ 500+ star issue fork 项目:https://github.com/didi/nightingale 官网:https://n9e0 码力 | 40 页 | 3.85 MB | 1 年前3
PromQL 从入门到精通函数是求取的时间段内的增量,而且有数据外推,rate 函数则求取的每秒变化率,也有数据外推的逻辑,相当于 increase 的结果除以 range-vector 的时间段的大小,就是 rate 的值。我们用如下 promql 做验证: rate(net_bytes_recv{interface="eth0"}[1m]) == bool increase(net_bytes_recv{interface="eth0"}[1m])/600 码力 | 16 页 | 2.77 MB | 1 年前3
共 3 条
- 1













