降级预案在同程艺龙的工程实践-王俊翔
降级预案在同程艺⻰龙的⼯工程实践 演讲者 / 王俊翔 同程艺龙 ⾃自我介绍 搜索故障 微信⼩小程序 API⽹网关 资源1 搜索引擎 统⼀一资源⽹网关 资源2 资源3 资源4 …… 资源4 ⼤大量量超时 统⼀一资源⽹网关 搜索引擎 API⽹网关 ⼤大量量请求超时 缺乏熔断设计 交易易故障 第三⽅方⽀支付 ⽀支付中⼼心 ⽀支付回写 消息队列列 ⽀支付通知 交易易中台 缺乏UI、没有灵活的参数、策略略配置,没有预案制定管理理能⼒力力 业务保障平台建设之路路 业务保障平台建设之路路 服务管理理 策略略管理理 预案制定 线上演练 • 降级服务统⼀一注册管理理,通过降 级服务质量量数据从整体反映各应 ⽤用的降级点和可⽤用性保障措施 • 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 • 依据服务重要程度,从全局制定 分级预案,对降级点进⾏行行预案编 分级预案,对降级点进⾏行行预案编 排,并跟踪监控降级链路路的执⾏行行 • 发现潜在故障,多维度验证预案 有效性,评估系统可靠性,提供 降级策略略、参数调整的优化依据 整体架构 Agent 服务降级注册 降级熔断通知 元数据存储 控制 中⼼心 ETCD ETCD ETCD ETCD 服务注册监听 降级控制中⼼心 元数据 TurboMQ 熔断降级监听 Application Application0 码力 | 26 页 | 18.67 MB | 1 年前3在网格的边缘试探:企业 Istio 试水指南
集群环境申请:版本、开关、资源等。 • 功能性需求:本次试用中Istio需要提供的功能,再次强调:No Freestyle • 非功能需求:并发、成功率、响应时间等服务质量参数。 • 故障处理需求:故障预案。 • 影响范围分析。 • 选定测试版本:研读开放Issue以及Release Notes。测试方案部署 • Istio部署 • 复查集群环境 • 调整资源参数 • 调整亲和性参数 • 调整HPA 如果性能下滑,可以尝试扩张资源。 • 如果无法达成测试目标,建议取消——无侵入的好处就是可以撤 退。 • 评估关联服务的工作情况——尤其是重试、超时特性的应用切换演练 • 在测试版本和后备版本之间根据预案进行切换。 • 验证相关服务的工作状况。 • 最终保障试点上线 • 在通过测试验证和切换演练的过程之后,就可以将试用的网格应 用上线到生产 环境开始试运行了。和所有其他上线活动一样,在 上线之后0 码力 | 19 页 | 11.41 MB | 5 月前3QCon北京2018-《美团配送系统架构演进实践》-阴永俊
快速起量,系统质量、研发效率问题凸显 v1.0 基于open-falcon的基础监控 • 单接口、核心依赖降级 • 业务大盘、Trace • 容灾预案集成到系统 核心依赖 端到端 服务SLA分级 与 场景化 核心依赖 -> 端到端 -> 场景化 的监控与容灾预案 规模化阶段:容灾能力 快速起量,系统质量、研发效率问题凸显 规模化阶段:系统容量 静态评估 工具辅助评估 场景压测 全链路压测0 码力 | 31 页 | 15.26 MB | 1 年前3人工智能安全治理框架 1.0
析 人工智能技术、软硬件产品、服务等方面存在的安全漏洞、缺陷、风险威胁、 安全事件等动向,协调有关研发者、服务提供者建立风险威胁信息通报和共享 机制。构建人工智能安全事件应急处置机制,制定应急预案,开展应急演练, 及时快速有效处置人工智能安全威胁和事件。 5.8 加大人工智能安全人才培养力度。推动人工智能安全教育与人工 智能学科同步发展,依托学校、科研机构等加强人工智能安全设计、开发、治 择、审慎使用。 (c)服务提供者应在告知同意、服务协议等文件中,支持使用者行使人 类监督和控制责任。 (d)服务提供者应让使用者了解人工智能产品的精确度,在人工智能决 策有重大影响时,做好解释说明预案。 (e)服务提供者应检查研发者提供的责任说明文件,确保责任链条可以 追溯到递归采用的人工智能模型。 (f)服务提供者应提高人工智能风险防范意识,建立健全实时风险监控 管理机制,持续跟踪运行中安全风险。0 码力 | 20 页 | 3.79 MB | 28 天前3DeepSeek从入门到精通(20250204)
。标注 关键时间节点和相应的传播重点。 (10)效果评估(600字内): 设定5—7个关键绩效指标(KPI),涵盖曝光、参与、转化和品牌健康度等方面。 说明数据来源和评估频率。 (11)危机预案(500字内): 列出2—3个可能的传播风险,并为每个风险提供简要的应对策略。 预算分配建议: 按渠道和阶段列出预算分配比例,确保资源的最优化使用。 请基于以上要求,生成一份全面、创新且可执行的传播策略方案。 利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
。标注 关键时间节点和相应的传播重点。 (10)效果评估(600字内): 设定5—7个关键绩效指标(KPI),涵盖曝光、参与、转化和品牌健康度等方面。 说明数据来源和评估频率。 (11)危机预案(500字内): 列出2—3个可能的传播风险,并为每个风险提供简要的应对策略。 预算分配建议: 按渠道和阶段列出预算分配比例,确保资源的最优化使用。 请基于以上要求,生成一份全面、创新且可执行的传播策略方案。 利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 103 页 | 5.40 MB | 8 月前3百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu
数据面板:envoy组件,流量转发、负载均衡 等功能. #IstioCon 收益 主要介绍如下几个方面: l 稳定性方面 (单点,多点,防雪崩,长尾优化,架构故障韧性能力) l 治理效率方面 (提升一级模块建成效率,二级模块预案能力) l 周边生态方面 (流量复制,稳定性工程,动态调参, 服务可观测性) l 覆盖率方面 (百度APP100%核心模块,流量占比>79.5% ) #IstioCon 收益介绍 – 防雪崩&长尾0 码力 | 9 页 | 2.20 MB | 1 年前3金融级云原生 PaaS 探索与实践
多集群管理 跨集群网络 跨集群镜像管理 蓝绿发布 灰度分组发布 中间件变配 (DRM/Scheduler/Message) Mesh流调拨和治理 弹性建站/下站 容器腾挪/迁移 容灾切换和恢复 应急预案管理 … 分钟级容灾切换和恢复 全面变更风险管理 无限弹性可扩展 业务架构 产品层 云原生 PaaS 产品架构方案 7/209/20 二、多集群管控 多集群管控10/20 为什么要有集群联邦0 码力 | 20 页 | 1.71 MB | 5 月前3云原生微服务最佳实践
Web应⽤防⽕墙 分布式任务LTS 服务注册发现 配置中心 RPC HTTP HTTP HTTP HTTP 调度分配 斯凯奇 云原生网关最佳实践 配置管理最佳实践 服务和路由规则 预案 限流 开关 动态UI 机房切流 文案、公告 前后端独立发布 布局、氛围调整 高可用平台配置 降级 开关 特性 开关 紧急预 案 提前预 案 白名单 日志级别 、采样率0 码力 | 20 页 | 6.76 MB | 1 年前3Flashcat 让监控分析变简单,Flashcat产品技术交流
cloud/blog/case-flashcat-in-medicine-company/ 痛点: 1. 故障发现慢,主要依赖⽤户保障 2. 缺乏基于业务视⻆的全链路监控,故障定位耗时较⻓ 3. 缺乏对重要故障场景的应急预案的梳理和演练 效果: 1. 通过落地Flashcat平台,公司A级产品线北极星指标监控实现了全覆盖,P3级 及以上故障北极星监控发现率为100%,MTTI控制在5分钟以内。真正做到了先 于⽤户发现问题,让故障处理变被动为主动。0 码力 | 43 页 | 6.54 MB | 1 年前3
共 13 条
- 1
- 2