降级预案在同程艺龙的工程实践-王俊翔少降级点,降级是如 何实现的 • 缺乏UI、没有灵活的参数、策略略配置,没有预案制定管理理能⼒力力 业务保障平台建设之路路 业务保障平台建设之路路 服务管理理 策略略管理理 预案制定 线上演练 • 降级服务统⼀一注册管理理,通过降 级服务质量量数据从整体反映各应 ⽤用的降级点和可⽤用性保障措施 • 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 Application SDK 熔断 降级 流控 隔离 实时策略略推送 数据采集 应⽤用管理理 策略略管理理 流控管理理 预案管理理 指标管理理 监控告警 数据⼤大盘 脚本开发 ETCD管理理 故障演练 业务保障管理理后台 应⽤用JVM进程 故障动态注⼊入 Attach 故障注⼊入 指标聚合查询 熔断降级计算(Flink) ⽇日志中⼼心 KAFKA 数据采集、计算、存储 指标(HBase) 所有⾮非核⼼心服务降级 • 预案编排 • 根据链路路关系、同等级优先级进⾏行行预案编排, 形成降级执⾏行行链路路 • 线上实时预案测试、演练,演练数据回溯 业务不不断迭代,持续引⼊入新依赖,系统是否稳定可靠? 预案是否依然持续有效? 如何才能持续保障系统的⾼高可⽤用性? 故障演练 • 对预案进⾏行行有效性、合理理性验证 • 通过破坏性测试,发现系统的潜在故障,及时修正,并做好降级预防措施 • 参0 码力 | 26 页 | 18.67 MB | 1 年前3
Nacos架构&原理
性等分布式系统指标影 响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 Nacos 服务端主动关闭连接,客户端实时感知 防抖: ○ 网络短暂不可用: 客户端需要能接受短暂网络抖动,需要⼀定重试机制,防止集群抖动,超过 阈值后需要自动切换 server,但要防止请求风暴。 断网演练:断网场景下,以合理的频率进行重试,断网结束时可以快速重连恢复。 49 > Nacos 架构 5. 安全性 支持基础的鉴权,数据加密能力。 6. 低成本多语⾔实现 在客户端层面要尽可能多的支持多语言,至少要支持⼀个 待同步的业务服务列表服务增加的告警 待同步的业务服务列表服务删除的告警 业务服务同步完毕告警: 业务服务同步完毕的告警 223 > Nacos 最佳实践 Nacos Eureka Sync 升级演练 1、7 月某天晚上 10 点开始, FAT 环境进行演练,通过自动化运维工具 Ansible 两次执行⼀键升 级和回滚均没问题。 2、晚上 11 点 30 开始,执行灾难性操作,观察智能恢复状况, 9 台 Nacos Eureka0 码力 | 326 页 | 12.83 MB | 9 月前3
美团点评2018技术年货P999均至 少下降80%,并且在一次线上专线故障期间,账号读服务对外的可用性并没有受影响,避免了更大范围 的损失。 总结 总结 服务的高可用需要持续性的投入与维护,比如我们会每月做一次容灾演练。高可用也不止体现在某一两个 重点项目上,更多的体现在每个业务开发同学的日常工作里。任何一个小Bug都可能引起一次大的故障, 让你前期所有的努力都付之东流,因此我们的每一行代码,每一个方案,每一次线上改动都应该是仔细推 特性来保证数据最终是可以同步到其他系统中。 第三是我们一直在花精力解决的事情,就是保障集群高可用,主要从三个方面来入手,事前较多的是做全 链路压测评,估峰值容量;周期性的集群健康性检查;随机故障演练(服务、机器、组件)。事中做异常 报警(性能、业务指标、可用性);快速的故障定位(单机故障、集群故障、IDC故障、组件异常、服务 异常);故障前后的系统变更收集。事后重点做系统回滚;扩容、限流、熔断、降级;核武器兜底。 用依赖时都会检 查一下是否到达信号量的限制值,如达到,则拒绝。 5. 故障恢复要快之快速发现 5. 故障恢复要快之快速发现 发现分为事前发现、事中发现和事后发现。事前发现的主要手段是压测和故障演练;事中发现的主要手段 是监控报警;事后发现的主要手段是数据分析。 5.1 全链路线上压测 5.1 全链路线上压测 你的系统是否适合全链路线上压测呢?一般来说,全链路压测适用于以下场景: ①0 码力 | 229 页 | 61.61 MB | 1 年前3
可发布版-美团点评微服务OCTO-曹继光�� ��! 3.�� ��! 4.�� ��! 5.�� ��� ��! 6.�� ���! 1.�� ��! 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练 服务治理实践(6)-星耀段t+ 异地容灾 扩展 回顾:服务治理系统的三项必备能力 % 标准化 & 易用性 3 高性能 降u服务间协作成本 提高服务开发效率0 码力 | 35 页 | 14.10 MB | 1 年前3
分布式异地多活架构实践之路客户端 北京 50% 合肥 50% 广州 50% 1 1 2 冗余机器与其他系统复用,弹性伸缩 配套系统支撑 测试场景覆盖 灰度发布上线 机房流量调度 监控覆盖 故障模拟演练 数据恢复 配置平台 服务化平台 日常运维 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 未来规划 可用性 机房内故障0 码力 | 36 页 | 1.66 MB | 1 年前3
Go在工程实践的错误处理没遇到过的问题,很难意识到对应的操作手段 自动化 经验 识别 花很多时间,去排查线上问题,这是一个认知问题 为什么恢复慢?-- 错误手册 自动化 经验 识别 1. 将认知总结为文档 2. 故障演练 为什么恢复慢?-- 错误手册 自动化 经验 识别 • 自己写文档,代码和文档不一致 • 有错误码找不到代码对应地方 • 有错误码不知道是哪个版本的代码 • 错误码在代码里还有没有使用,错误码越变越多,0 码力 | 30 页 | 3.11 MB | 1 年前3
QCon北京2018-《美团配送系统架构演进实践》-阴永俊生产与应用独立建模 快速起量,系统质量、研发效率问题凸显 运营侧应用 • 提供搜索、权限、审批解决方案,保证扩展性 规模化阶段:可用性建设 研发高压线、月度Case复盘、CaseStudy 故障演练 规避能力 解决能力 线上故障处理SOP 上线规范、扩容流程、重构流程、CR流程 周巡检/日巡检制度 诊断能力 预防能力 流程建设 系统建设 故障管理平台 应急管理平台 四层监控体系、业务大盘、APP大盘0 码力 | 31 页 | 15.26 MB | 1 年前3
Cmake 实践再赘述了,相信一定能够顺利安装 cmake。 三,初试 cmake – cmake 的 helloworld Hello world ,世界 你好 本节选择了一个最简单的例子 Helloworld 来演练一下 cmake 的完整构建过程,本节并不 会深入的探讨 cmake,仅仅展示一个简单的例子,并加以粗略的解释。我们选择了 Everest Linux 作为基本开发平台,因为这个只有一张 CD 的发行版本,包含了0 码力 | 47 页 | 264.27 KB | 1 年前3
FISCO BCOS 2.9.0 中文文档他区块链底层项目,希望本文对你有所帮助。 整体架构 架构模型:一体两翼多引擎 群组架构:支持链内动态扩展多群组 FISCO BCOS 2.0原理解析篇1: 群组架构的设计 FISCO BCOS 2.0使用教程篇1: 群组架构实操演练 分布式存储:支持海量数据存储 FISCO BCOS 2.0原理解析篇2: 分布式存储架构设计 FISCO BCOS 2.0使用教程: 分布式存储体验 并行计算:支持块内交易并行执行 区块链性能腾飞:基于DAG的并行交易执行引擎 下篇预告:群组架构的使用教程 下一篇文章,我会以搭建群组区块链为例,向大家提供群组架构的实操课 程,敬请持续锁定FISCO BCOS开源社区。 FISCO BCOS 2.0使用教程篇1: 群组 架构实操演练 作者:陈宇杰|FISCO BCOS 核心开发者 如果说,上篇是带你潜入团队的大脑,看清群组架构诞生的由来和架构设计 (还没看的伙伴可以点标题直接进入:群组架构的设计 [https://mp.weixin e99ede91c6f3ddcd7f438821f&token=7058 51025&lang=zh_CN#rd]:使企业间建立多方协作的商业关系像拉群聊天一样简 便。 使用教程 群组架构实操演练 [https://mp.weixin.qq.com/s? __biz=MzA3MTI5Njg4Mw==&mid=2247485337&idx=1&sn=622e88b631ae1bfe5789b2fe21576779&chks0 码力 | 2649 页 | 201.08 MB | 1 年前3
FISCO BCOS 2.7.2 中文文档他区块链底层项目,希望本文对你有所帮助。 整体架构 架构模型:一体两翼多引擎 群组架构:支持链内动态扩展多群组 FISCO BCOS 2.0原理解析篇1: 群组架构的设计 FISCO BCOS 2.0使用教程篇1: 群组架构实操演练 分布式存储:支持海量数据存储 FISCO BCOS 2.0原理解析篇2: 分布式存储架构设计 FISCO BCOS 2.0使用教程: 分布式存储体验 并行计算:支持块内交易并行执行 区块链性能腾飞:基于DAG的并行交易执行引擎 下篇预告:群组架构的使用教程 下一篇文章,我会以搭建群组区块链为例,向大家提供群组架构的实操课 程,敬请持续锁定FISCO BCOS开源社区。 FISCO BCOS 2.0使用教程篇1: 群组 架构实操演练 作者:陈宇杰|FISCO BCOS 核心开发者 如果说,上篇是带你潜入团队的大脑,看清群组架构诞生的由来和架构设计 (还没看的伙伴可以点标题直接进入:群组架构的设计 [https://mp.weixin e99ede91c6f3ddcd7f438821f&token=7058 51025&lang=zh_CN#rd]:使企业间建立多方协作的商业关系像拉群聊天一样简 便。 使用教程 群组架构实操演练 [https://mp.weixin.qq.com/s? __biz=MzA3MTI5Njg4Mw==&mid=2247485337&idx=1&sn=622e88b631ae1bfe5789b2fe21576779&chks0 码力 | 2520 页 | 211.87 MB | 1 年前3
共 33 条
- 1
- 2
- 3
- 4













