告警OnCall事件中心建设方法白皮书ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 El Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty0 码力 | 23 页 | 1.75 MB | 1 年前3
CurveFS ChunkID持久化chunkid 持久化© XXX Page 2 of 3 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 3. 4. 1. 1. 1. 2. 1. 2. 3. 4. 3. 2. 背景 将原有的获取chunkid的方法从space迁入mds中,并持久化写入etcd中; 只考虑单 ChunkIDGenerator 类对象,方法 AllocateS3Chunk 调用 ChunkIDGenerator对象的GenChunkID方法; ChunkIDGenerator 类 构造函数 初始化 init 函数:用于初始化或者更改 ChunkIdAllocatorImpl 的一些配置。但是这些配置不会立即生效,而是等到当前 chunkId池枯竭时才会生效。 析构函数 GenChunkID 申请的chunkID池是否枯竭?0 码力 | 3 页 | 79.38 KB | 6 月前3
openEuler 22.03 LTS SP2 技术白皮书技术白皮书 openEuler 22.03 LTS SP2 目 录 CONTENTS 附录 45 特性增强 20 商标 44 云化基座 17 著作权说明 43 内核创新 12 概述 01 平台架构 04 运行环境 07 场景创新 09 01 openEuler 22.03 LTS SP2 技术白皮书 概述 概述 02 openEuler 22 openEuler 或者 openEuler 社区。由开放原子开源基金会(以下简称“基金会”)孵化及运营。 openEuler 是一个面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算, 致力于提供安全、稳定、易用的操作系统。通过为应用提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 openEuler 社区通过开放的社区形式与全球 社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持 多种处理器架构、覆盖数字基础设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 2019 年 12 月 31 日,面向多样性计算的操作系统开源社区 openEuler 正式成立。 2020 年 3 月 30 日, openEuler 20.03 LTS (Long Term Support,简写为 LTS,中文为长生命周期支持)版本正式发布,0 码力 | 48 页 | 5.62 MB | 1 年前3
云原生 DevOps 平台 Zadig 产品介绍云原⽣ DevOps 平台 企业咨询 产业数字化 研发加速度 产品介绍 01 公司介绍 KodeRover 是国内云原⽣ DevOps 领域的领军企业,帮助企业提升产 研⼯程化⽔平,加速产业数字化进程,快速响应市场需求。核⼼团 队由国内外云计算、DevOps、⼯程运筹学领域专家组成,已连续完 成由盈动和经纬领投的天使轮/PreA 轮融资。公司旗舰产品云原⽣ DevOps 平台 Zadig 上核⼼开源,⽤平台⼯程 ⽀撑软件研发全⽣命周期,让产研⾼效协同,稳定迭代。Zadig 内 置了 K8s YAML、Helm Chart、主机等复杂场景最佳实践,适⽤云原 ⽣转型/上容器云、研发效能提升、⼤规模微服务环境治理、研发 数字化转型等应⽤场景,在企业服务、数字化转型、新能源汽⻋领 域⼴泛落地,在包括字节⻜书、⼩鹏、理想、极氪、路特斯、⻓城 汽⻋、仙⾖智能、TT 语⾳、易快报、七⽜、⾮码、锅圈、药师帮、 ⼤参 产品特性 路特斯某运维团队,抛弃传统⼯具,⽤ Zadig 将研发重复性事务⾃动 化、平台化,⼤幅度缩短新项⽬投产时间,轻盈应对全球多云复杂交 付场景。践⾏“SIMPLIFY,THEN ADD LIGHTNESS”哲学,⽤软件研发能⼒赛 出 F1 性能! 极氪某部⻔,使⽤ Zadig 实现软件研发 “在线化 〉⼯程化 〉数字化” 的数智跃迁,保障软件稳定升级、提升上线效率 1 倍多,节省了过去 90%0 码力 | 8 页 | 18.50 MB | 1 年前3
多云管下的自动化运维架构-刘宇多云管下的自动化运维架构 刘宇 Bespin 高级研发总监 自我介绍 自我介绍 • DevOps专家 • 曾任职于新浪、百度、金山 • 《Puppet实战作者》 《Puppet实战手册》 《Python进阶》 • QCon金牌讲师,QCon优秀出品人 目录 ① 行业趋势分析 ② 多云下运维的挑战 ③ 多云平台架构如何设计? ④ 困难以及挑战 资源统一管理 监控 监控 账单 ⑤ 未来的展望 行业趋势分析 2017 年主流公有云故障 2018 年主流公有云故障 2019 年主流公有云故障 1% 的机率毁掉一家公司 行业趋势分析 多云下运维的挑战 Nginx Nginx LVS LVS Nginx DB DB Ngx Ngx LVS LVS Ngx DB DB Ngx Ngx LVS LVS Ngx DB DB 海海外 云故障时,影响不及时 —〉 不可控 集中式监控成本高 —〉 难统一 排查定位问题成本高 —〉 跨度大 业务成本难以核算 —〉 账单难处理 。。。 多云下运维的挑战 Gartner:云管理平台需要具备多云管理、自服务、计量计费、资源弹性及服务编排, 能够自动化部署和配置相关资源,可以与企业现有IT管理系统集成的服务化能力 云管平台架构设计 私有云 公有云 虚拟化0 码力 | 32 页 | 6.05 MB | 1 年前3
Curve文件系统元数据持久化方案设计© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明 实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案? redis + muliraft redis 中哈希表实现的优点? 参考 前言 根据之前讨论的结果,元数据节点的架构如下图所示,这里涉及到两部分需要持久化/编码的内容: Raft Log:记录 operator log Raft Snapshot:将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+----- -----+----------------+---------+ 持久化文件 字段 字节数 说明 CURVEFS 7 magic number(常量字符 "CURVEFS"),用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号(当文件格式变化时,可以 100% 向后兼容加载旧版持久化文件) size 8 键值对数量 key_value_pairs / 键值对(当0 码力 | 12 页 | 384.47 KB | 6 月前3
openEuler 21.03 技术白皮书openEuler 21.03 技术白皮书 1 openEuler 21.03 技术白皮书 01 / 概述 02 / 平台架构 03 / 运行环境 04 / 内核创新 05 / 云化基座 06 / 生态繁荣 07 / 增强特性 08 / 社区治理 09 / 著作权说明 10 / 商标 11 / 附录 01 04 07 09 13 17 21 25 openEuler 支持 X86、Arm、RISC-V 等多处理器架构,是一个推动多样性计算架构不断创新的操作系统平台。 openEuler 支持以 Intel/ 兆芯为代表的 X86 架构,以鲲鹏、飞腾为代表的 ARM 架构,同时发布了 RISC-V 的体验版本。 openEuler 希望与广大用户和开发者一起加速完善多样化算力的生态和性能体验。 openEuler 希望把工作负载和最合适的算力单元 LTS openEuler 系统镜像下载 openEuler 社区主线 openEuler 20.09 openEuler 21.03 长生命周期版本 创新版本 首个创新版 内核创新版 云原生创新版 长生命周期版本:每两年发布一次,在创 新版本基础上提供长生命周期管理;维护 性能、可靠性和兼容性。 创新版本:长生命周期版本之间每 半年发布一次,集成 openEuler 以及其他社区最新版本技术进展0 码力 | 18 页 | 1.30 MB | 1 年前3
openEuler 23.09 技术白皮书施的操作系统,支持服 务器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多 种处理器架构、覆盖数字基础设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 2019 年 12 月 31 日,面向多样性计算的操作系统开源社区 openEuler 创新版如期而至,这是欧拉全新发布后的第一个社区版本,实现了全场景 支持。增强服务器和云计算的特性,发布面向云原生的业务混部 CPU 调度算法、容器化操作系统 KubeOS 等关键技术; 同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提 长生命周 期版本采用 6.x 内核提前进行技术探索,方便开发者进行硬件适配、基础技术创新及上层应用创新。 2023 年 6 月 30 日,发布 openEuler 22.03 LTS SP2 版本,场景化竞争力特性增强,性能持续领先。 2023 年 9 月 30 日,发布 openEuler 23.09 创新版本,是基于 6.4 内核的创新版本(参见版本生命周期),提供更多 新特性和功能,给开发者0 码力 | 52 页 | 5.25 MB | 1 年前3
Traefik 在⼜拍云的应⽤和改造Traefik 在⼜拍云的应⽤和改造 陈卓 ⼜拍云系统开发⼯程师 公开课 分享内容 • Traefik 简介 • Traefik 跟 Ingress-Nginx 比较 • 我们为什么使用 Traefik • Traefik 改造之路 Traefik 简介 Traefik 简介 Edge Router Auto Service Discovery Traefik 简介 其它的⼀些改造 1.Traefik Hash算法跟 OpenResty 不同 2.Traefik 的超时设置 3.Traefik retry 算法 4.Traefik 日志格式 关注⼜拍云微信公众号, 获取更多⼲货! Q & A0 码力 | 22 页 | 1.91 MB | 1 年前3
openEuler 21.09 技术白皮书运行环境 08 著作权说明 32 内核创新 10 商标 32 云化基座 14 附录 32 CONTENTS 目录 openEuler 21.09 技术白皮书 01 场景创新 18 概述 02 增强特性 21 平台架构 05 社区治理 25 运行环境 08 著作权说明 32 内核创新 10 商标 32 云化基座 14 附录 32 01/ 概述 openEuler 21.09 09 技术白皮书 02 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务器、 云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用提供确定 性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 2019 年 12 月 31 日,面向多样性计算的操作系统开源社区 openEuler 正式成立。 2020 年 3 月 30 日, openEuler 20.03 LTS (Long Term Support,简写为 LTS,中文为长生命周期支持)版本正式发布, 为 Linux0 码力 | 35 页 | 3.72 MB | 1 年前3
共 150 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15













