Prometheus Deep Dive - Monitoring. At scale.Prometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH to 2.2.1 2.4 - 2.6 Beyond Outro Storage Test setup Kubernetes cluster with dedicated Prometheus nodes 800 microservice instances and Kubernetes components 120k samples/sec 300k active time series0 码力 | 34 页 | 370.20 KB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享sdk 注册 获取target 采集数据 吞吐量量 响应时间 错误率 饱和度 熔断 限流 投稿数量量 订单数据 在线⼈人数 … ⻩黄⾦金金指标 业务指标 少量量事件 dashboard 报表 告警 统⼀一的告警中⼼心 解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警 • 发送告警渠道多 • 重要告警没有及时到达 • 优化告警没有数据依据0 码力 | 34 页 | 650.25 KB | 1 年前3
Intro to Prometheus - With a dash of operations & observabilityPrometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH0 码力 | 19 页 | 63.73 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通记录,所以高基数的一侧是左侧,故而使用 group_left。 另外举一个例子,说明 group_left group_right 的一个常见用法,比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据,其中针对 pod 有个指标是 kube_pod_labels,会把 pod 的一些信息放到这个指标的标签里,指标值是1,相当于一个元信 息,比如: kube_pod_labels{0 码力 | 16 页 | 2.77 MB | 1 年前3
共 5 条
- 1













