Prometheus Deep Dive - Monitoring. At scale.
0 码力 | 34 页 | 370.20 KB | 1 年前文档深入探讨了Prometheus监控系统及其扩展性。重点介绍了Prometheus 2.0版本及其后续版本(2.2.1、2.4-2.6等)的关键特性,包括存储后端的改进、数据陈旧处理、远程读写API的稳定性以及ACID特性。文档还提到Prometheus在安全性和质量方面的改进,以及其在OpenMetrics标准下的整合。内容涵盖了Prometheus的测试能力、长期存储解决方案、安全增强以及与OpenTracing的集成,旨在推动观测性标准的统一和模块化。
OpenMetrics - Standing on the shoulders of Titans
0 码力 | 21 页 | 84.83 KB | 1 年前文档介绍了OpenMetrics的发展背景及其在监控领域的应用。OpenMetrics旨在统一监控数据格式,支持多种工具如Prometheus、InfluxDB等,并扩展至传统项目如Arista和Vertiv。文档还提到OpenMetrics不仅支持指标,还支持事件数据,每条时间序列数据可关联到单个事件,特别适用于跟踪ID的使用场景。
Intro to Prometheus - With a dash of operations & observability
0 码力 | 19 页 | 63.73 KB | 1 年前文档介绍了Prometheus监控工具的核心概念和设计理念。Prometheus是一款基于Google Borgmon的开源监控和报警工具,采用时间序列数据库模型,支持PromQL查询语言进行数据处理和可视化。文档强调了Prometheus的黑盒和白盒监控能力,以及其在可观测性中的应用。通过结合指标数据和复杂的数据操作,Prometheus能够实现高效的监控和问题诊断。文档还提到Prometheus在Kubernetes生态系统中的重要性,以及如何通过减少无益的运维工作量来提升团队效率。
PromQL 从入门到精通
0 码力 | 16 页 | 2.77 MB | 2 年前文档详细介绍了PromQL的基础知识及实际应用场景,包括查询选择器的使用、Offset关键字的时序调整、算术运算符和比较运算符的应用、rate和irate函数的区别、histogram_quantile函数的使用方法、以及告警规则的配置。同时,文档还讲解了逻辑运算符和集合运算符的使用,聚合函数的应用如sum、avg、min、max等,以及group_left和group_right的高级使用技巧。此外,文档还涉及PromQL在Kubernetes环境中的实践,如与kube-state-metrics结合使用,并对处理分布式系统延时指标的函数进行了详细说明。
1.6 利用夜莺扩展能力打造全方位监控系统
0 码力 | 40 页 | 3.85 MB | 2 年前文档介绍了夜莺监控系统,强调其作为新一代国产智能监控平台的能力,能够解决传统物理机、虚拟机及容器场景下的监控需求。夜莺支持多种数据采集方式,包括通过web配置采集策略、端上流式读取日志、集成多种数据库中间件和网络设备的采集能力,同时支持statsd的udp协议用于业务应用的APM监控分析。夜莺经过滴滴等多家企业的生产环境验证,具备高稳定性和扩展性,旨在重新定义国产开源监控系统。
告警OnCall事件中心建设方法白皮书
0 码力 | 23 页 | 1.75 MB | 2 年前文档详细介绍了OnCall事件中心的建设方法,重点讲述了如何通过统一平台聚合和处理来自多个监控系统的告警事件。文中提到,OnCall事件中心能够通过两级收敛机制(events -> alerts -> incidents)减少告警数量,提升处理效率。同时,文档强调了使用FlashDuty等工具的重要性,这些工具提供了集成、通知、排班、认领升级等功能,帮助实现告警的闭环处理。文档还介绍了如何通过协作空间管理不同团队的告警事件,并提供了具体的工具实践和配置方法。
B站统⼀监控系统的设计,演进
与实践分享
0 码力 | 34 页 | 650.25 KB | 2 年前文档详细介绍了B站统一监控系统的设计、演进与实践。面对技术栈多、业务爆发式增长带来的监控问题,B站重新定义了监控体系,涵盖用户端、服务端、客户端、播放质量、业务层、应用层和基础层等多方面。通过科学的告警策略和完整的监控体系,解决了监控覆盖率低、误报漏报多、告警风暴等问题,确保了系统的稳定性和高效运维。
4 【王琼】容器监控架构演进 王琼 YY直播
0 码力 | 23 页 | 2.17 MB | 2 年前文档讨论了在Kubernetes环境下容器监控系统的架构演进。随着容器规模的快速增长,监控系统需要处理大量动态变化的监控数据,并具备动态扩展能力。文中介绍了容器云平台的监控系统架构,包括使用Prometheus进行数据收集、通过remote_write协议将数据写入Kafka、利用Grafana进行可视化展现,以及使用VictoriaMetrics进行性能优化。同时,文档还分析了现有架构的优缺点,如Thanos和Kvass在多集群管理中的复杂性和数据丢失风险,并提出了动态扩缩和优化维护成本的解决方案。
共 8 条
- 1













