告警OnCall事件中心建设方法白皮书
的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障 历史信息,快速启动排查工作。 下个版本还会继续增强和 IM 的联动,在 FlashDuty 中的一些评论回复,会自动发到 IM 端,进而提升 协同效率。 另外,我们非常建议大家认真处理每一个故障,认真填写故障处理过程、止损手段,这是极好的知识库,0 码力 | 23 页 | 1.75 MB | 1 年前3
 PromQL 从入门到精通mem_total{app="clickhouse"} 也能找到5条,二者相除的逻辑姑且可以理解为,循环遍历 mem_available 的5条记录,对于每一条,去 mem_total 的5条记录中找标签相同的记录,进 行除法运算。除法运算得到5条结果(0~1之间的数字),然后跟100相乘(得到百分比大 小),100这个数字称为标量,5条结果和标量计算,会把每一条结果分别乘以100,得到最终 的结果,这个最终结果其实就是 记录,所以高基数的一侧是左侧,故而使用 group_left。 另外举一个例子,说明 group_left group_right 的一个常见用法,比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据,其中针对 pod 有个指标是 kube_pod_labels,会把 pod 的一些信息放到这个指标的标签里,指标值是1,相当于一个元信 息,比如: kube_pod_labels{0 码力 | 16 页 | 2.77 MB | 1 年前3
 Prometheus Deep Dive - Monitoring. At scale.Prometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH to 2.2.1 2.4 - 2.6 Beyond Outro Storage Test setup Kubernetes cluster with dedicated Prometheus nodes 800 microservice instances and Kubernetes components 120k samples/sec 300k active time series0 码力 | 34 页 | 370.20 KB | 1 年前3
 Intro to Prometheus - With a dash of operations & observabilityPrometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH0 码力 | 19 页 | 63.73 KB | 1 年前3
共 4 条
- 1
 













