ShardingSphere 高可用功能详解 & 实战演练-赵锦超
Apache ShardingSphere 高可用功能详解 & 实操演练 赵锦超 2022.08.06 01 赵锦超 Apache ShardingSphere Committer SphereEx 研发工程师 o 从事过电商、金融行业,热爱开源 o 目前专注于 Apache ShardingSphere 高可用 & 分布式治理的相关研发工作 02 Apache ShardingSphere ShardingSphere 高可用介绍 Apache ShardingSphere 高可用源码解析 Apache ShardingSphere HA & MySQL MGR 实战演练 目录 01 03 Apache ShardingSphere 高可用介绍 ShardingSphere-Proxy 高可用 Apache ShardingSphere 高可用介绍 Apache ShardingSphere ShardingSphere 高可用介绍 Apache ShardingSphere 高可用源码解析 目录 03 02 01 Apache ShardingSphere HA & MySQL MGR 实战演练 Apache ShardingSphere 高可用源码解析 数据库发现模块结构 Apache ShardingSphere 高可用源码解析 Databa0 码力 | 19 页 | 2.12 MB | 1 年前3降级预案在同程艺龙的工程实践-王俊翔
少降级点,降级是如 何实现的 • 缺乏UI、没有灵活的参数、策略略配置,没有预案制定管理理能⼒力力 业务保障平台建设之路路 业务保障平台建设之路路 服务管理理 策略略管理理 预案制定 线上演练 • 降级服务统⼀一注册管理理,通过降 级服务质量量数据从整体反映各应 ⽤用的降级点和可⽤用性保障措施 • 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 Application SDK 熔断 降级 流控 隔离 实时策略略推送 数据采集 应⽤用管理理 策略略管理理 流控管理理 预案管理理 指标管理理 监控告警 数据⼤大盘 脚本开发 ETCD管理理 故障演练 业务保障管理理后台 应⽤用JVM进程 故障动态注⼊入 Attach 故障注⼊入 指标聚合查询 熔断降级计算(Flink) ⽇日志中⼼心 KAFKA 数据采集、计算、存储 指标(HBase) 所有⾮非核⼼心服务降级 • 预案编排 • 根据链路路关系、同等级优先级进⾏行行预案编排, 形成降级执⾏行行链路路 • 线上实时预案测试、演练,演练数据回溯 业务不不断迭代,持续引⼊入新依赖,系统是否稳定可靠? 预案是否依然持续有效? 如何才能持续保障系统的⾼高可⽤用性? 故障演练 • 对预案进⾏行行有效性、合理理性验证 • 通过破坏性测试,发现系统的潜在故障,及时修正,并做好降级预防措施 • 参0 码力 | 26 页 | 18.67 MB | 1 年前3Nacos架构&原理
性等分布式系统指标影 响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 Nacos 服务端主动关闭连接,客户端实时感知 防抖: ○ 网络短暂不可用: 客户端需要能接受短暂网络抖动,需要⼀定重试机制,防止集群抖动,超过 阈值后需要自动切换 server,但要防止请求风暴。 断网演练:断网场景下,以合理的频率进行重试,断网结束时可以快速重连恢复。 49 > Nacos 架构 5. 安全性 支持基础的鉴权,数据加密能力。 6. 低成本多语⾔实现 在客户端层面要尽可能多的支持多语言,至少要支持⼀个 待同步的业务服务列表服务增加的告警 待同步的业务服务列表服务删除的告警 业务服务同步完毕告警: 业务服务同步完毕的告警 223 > Nacos 最佳实践 Nacos Eureka Sync 升级演练 1、7 月某天晚上 10 点开始, FAT 环境进行演练,通过自动化运维工具 Ansible 两次执行⼀键升 级和回滚均没问题。 2、晚上 11 点 30 开始,执行灾难性操作,观察智能恢复状况, 9 台 Nacos Eureka0 码力 | 326 页 | 12.83 MB | 9 月前3在网格的边缘试探:企业 Istio 试水指南
• 如果无法达成测试目标,建议取消——无侵入的好处就是可以撤 退。 • 评估关联服务的工作情况——尤其是重试、超时特性的应用切换演练 • 在测试版本和后备版本之间根据预案进行切换。 • 验证相关服务的工作状况。 • 最终保障试点上线 • 在通过测试验证和切换演练的过程之后,就可以将试用的网格应 用上线到生产 环境开始试运行了。和所有其他上线活动一样,在 上线之后需要提高监控级别,关注试用服务自身和试用服务影响0 码力 | 19 页 | 11.41 MB | 5 月前3Ant Design Pro 从零到一(Mock 使用)
Ant Design Pro 从零到一(学习Model) Ant Design Pro 系列:ὄeyes Ant Design Pro 从零到一教程 React从零到一Demo演练(上) React从零到一Demo演练(下) Ant Design Pro从零到一(认识AntD) Ant Design Pro从零到一(页面创建) Ant Design Pro从零到一(Mock使用) Ant0 码力 | 6 页 | 299.27 KB | 1 年前3中国移动磐舟DevSecOps平台云原生安全实践
把安全工作做好,离不开管理、流程和团队的建设。 意识为先,警钟长鸣 通过不断的宣贯,让整个团队建立安全 意识 建立规范,严格执行 制定并发布《平台能力中心安全编码规范》 定期演练,检测有效性 定期演练,检验防护措施的有效性 持续运营,持续更新 漏洞规则要更新,病毒库要更新,防御手段也 要更新 乘舟上云 稳如磐基 CMIT云原生公众号0 码力 | 22 页 | 5.47 MB | 1 年前3美团点评2018技术年货
P999均至 少下降80%,并且在一次线上专线故障期间,账号读服务对外的可用性并没有受影响,避免了更大范围 的损失。 总结 总结 服务的高可用需要持续性的投入与维护,比如我们会每月做一次容灾演练。高可用也不止体现在某一两个 重点项目上,更多的体现在每个业务开发同学的日常工作里。任何一个小Bug都可能引起一次大的故障, 让你前期所有的努力都付之东流,因此我们的每一行代码,每一个方案,每一次线上改动都应该是仔细推 特性来保证数据最终是可以同步到其他系统中。 第三是我们一直在花精力解决的事情,就是保障集群高可用,主要从三个方面来入手,事前较多的是做全 链路压测评,估峰值容量;周期性的集群健康性检查;随机故障演练(服务、机器、组件)。事中做异常 报警(性能、业务指标、可用性);快速的故障定位(单机故障、集群故障、IDC故障、组件异常、服务 异常);故障前后的系统变更收集。事后重点做系统回滚;扩容、限流、熔断、降级;核武器兜底。 用依赖时都会检 查一下是否到达信号量的限制值,如达到,则拒绝。 5. 故障恢复要快之快速发现 5. 故障恢复要快之快速发现 发现分为事前发现、事中发现和事后发现。事前发现的主要手段是压测和故障演练;事中发现的主要手段 是监控报警;事后发现的主要手段是数据分析。 5.1 全链路线上压测 5.1 全链路线上压测 你的系统是否适合全链路线上压测呢?一般来说,全链路压测适用于以下场景: ①0 码力 | 229 页 | 61.61 MB | 1 年前3阿里云容器服务大促备战
资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测 边缘计算 敏捷调度 故障演练人为失误 http://integracon.com/11-leading-causes-downtime/ 45%最佳实践之容器化DevOps 杭州 容器集群 集群 伦敦 Serverless集群0 码力 | 17 页 | 17.74 MB | 5 月前3可发布版-美团点评微服务OCTO-曹继光
�� ��! 3.�� ��! 4.�� ��! 5.�� ��� ��! 6.�� ���! 1.�� ��! 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练 服务治理实践(6)-星耀段t+ 异地容灾 扩展 回顾:服务治理系统的三项必备能力 % 标准化 & 易用性 3 高性能 降u服务间协作成本 提高服务开发效率0 码力 | 35 页 | 14.10 MB | 1 年前3分布式异地多活架构实践之路
客户端 北京 50% 合肥 50% 广州 50% 1 1 2 冗余机器与其他系统复用,弹性伸缩 配套系统支撑 测试场景覆盖 灰度发布上线 机房流量调度 监控覆盖 故障模拟演练 数据恢复 配置平台 服务化平台 日常运维 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 未来规划 可用性 机房内故障0 码力 | 36 页 | 1.66 MB | 1 年前3
共 58 条
- 1
- 2
- 3
- 4
- 5
- 6