1.6 利用夜莺扩展能力打造全方位监控系统损!故障处理过程中,监控是『发现』和『定位』两个环节 的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知 产品要求 01.端上、链路、资源、组件、应用多维度跨云监控 端上 卡顿 崩溃 链路 连通性 链路质量0 码力 | 40 页 | 3.85 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
常态化通知的效果,不需要排查,也不需要止损,甚至连个长线的 TODO 都没有。这类告警多了人就疲 了,当重要的告警来临的时候,也容易忽略。这样的规则如果不经过治理,日积月累,就会产生很多无用 的告警。 第二个常见的原因是底层出问题导致所有的上层依赖都告警,越是底层影响越大,比如基础网络如果出问 题,发出几万条告警都是正常的。 第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出,用户可能会觉得单一渠道不可0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通间的增量数据来计算,比如基于10分钟区间的增量数据计算,就可以较为方便的知道,当前这 个10分钟的延迟是多少,上一个10分钟的延迟是多少。histogram_quantile 接收两个参数,第 一个是分位标量,第二个 instant-vector(这个vector的标签中一定要有 le 标签),举例: histogram_quantile(0.9, rate(http_request_duration_seconds_bucket[10m]))0 码力 | 16 页 | 2.77 MB | 1 年前3
共 3 条
- 1













