集群规模 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大规模分布式系统架构下调测能力构建之道

大规模分布式系统架构下调测能力构建之道李鑫大纲 分布式环境下开发的调测效率问题 应对之道 远程应用服务 契约测试 分布式消息服务 分布式缓存 分布式服务的“租户”隔离策略 总体调测框架实践 分布式环境下调测方法论单体应用服务化微服务小中型规模应用+小型团队中大型规模应用+多团队协同 Cache DB NFS Load Balancer Balancer website website website server server server server (超)大型规模应用+契约协同应用的发展演变历史服务化后的问题多团队协同的分布式环境下，不仅环境“重”，而且外部的服务是别的团队开发的，你很难得到一个稳定、快速的外部服务提供环境，在此背景下进行功能/接口调测存在如下困难：开发依赖重联调成本高变动把控困难 调测能力的总体框架及实践展示 分布式环境下调测方法论 Q/A 联系方式：李鑫天弘基金高级架构师 E-mail:lixin.storm@foxmail.com QQ:25893288 欢迎交流：专注于大规模分布式应用及治理、中间件云化及服务化(PaaS)、APM监控、基础开发平台、移动应用平台、企业架构等技术领域。个人公众号

0 码力 | 19 页 | 2.74 MB | 1 年前
3
超大规模高可用性云端系统构建之禅-蔡超

0 码力 | 40 页 | 6.52 MB | 1 年前
3
从百度文件系统看大型分布式系统设计中的定式与创新

专注于大规模分布式系统 • 代表作品 - 百度第三代Spider系统 - 百度文件系统BFS - 万亿量级实时数据库Tera - 集群调度系统Galaxy • 个人主页&Blog - https://github.com/bluebore - http://bluebore.cn 提纲 • 百度文件系统简介 • 分布式系统设计实践 • 总结与致谢百度的集群环境 • 单个集群通常几千台机器单个集群通常几千台机器 • 百度文件系统(BFS)、集群调度系统（Galaxy）、分布式协调服务（Nexus）是核心服务 • 实时任务与批量任务混合部署 Galaxy master BFS master Nexus lock service 分布式软件栈中的BFS The Baidu Stack 网络通信框架Sofa-pbrpc 分布式文件系统 BFS 集群调度系统 Galaxy 分布式协调服务要求强一致的, 容忍延迟 - 要求低延迟的, 选择最终一致提升系统扩展性 • 架构的可扩展性 - 拆分元数据节点 - 引入MetaServer 提升系统扩展性 • 设计的可扩展性 - 保证在规模扩大5倍或10倍是正常工作 • BFS避免了过渡设计 - 用设计中的不可扩展达到最大的可扩展 • 最多支持6万台机器 • 最多支持100亿文件分布式存储系统设计的特殊性 • 最基础服务的提供者

0 码力 | 24 页 | 937.45 KB | 1 年前
3
高可用分布式流数据存储设计-李玥

IOThreads 收到复制响应 Pending Callbacks ResponseThreads 发送响应 Journal Cache Journal Files 线程模型集群 · 架构没有最好的架构，只有最合适的架构取 · 舍学会⽅得始终取舍从实用角度出发，如何取舍？ Consistency ⼀一致性 Availability 可⽤用性⼤大促限流 Complexity 复杂度 Apache ZooKeeper “程序员都喜欢ZooKeeper，但用户正相反” 可维护性问题多机房部署时可⽤用性问题数据容量量有限，集群规模有限选举恢复速度慢，不不可⽤用时间较⻓长 John Ousterhout Diego Ongaro “In search of an understandable consensus 牺牲可⽤用性换取⼀一致性性能⼀一般集群规模不不能太⼤大 Raft总结读请求分流顺序⼀一致已提交位置之前的⽇日志具有不不变性。对于提交的⽇日志，相同位置上Follower的⽇日志和Leader上是⼀一样的。强⼀一致如果两个节点上的⽇日志完全相同，并且这些⽇日志都已经被状态机执⾏行行，那么这两个节点的状态是相同的。集群节点数越多性能越好吗？ NO 引⼊入Observers

0 码力 | 36 页 | 6.02 MB | 1 年前
3
QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+

业务和团队规模增长迅速，多元化发展，对效率和质量提出更高要求没有一种� 架构能� 包打天下 DB Server PC WEB 容错性、稳定性差技术债迅速积累代码安全带来挑战初始，� 效率优先成长,移动后台旁路追赶 DB主 Server PC WEB AND/IOS/H5/Open 静态站网贷服务借款流程 Cache集群安全加密支付结算订单 DB从批处理系统活动 DB主 DB从版本管理产品 ... 同步 …... 网站、基础服务移动后台业务和团队规模迅速扩张粗粒度服务化，基础设施完善 CDN/页面缓存/静态站/缓存集群移动后台旁路流程double，冗余开始出现移动后台单体继续成长,瓶颈明显后台日益庞大，业务冗余严重 N多业务排队上线，瓶颈明显智能DNS，DNS负载均衡限流(limit,lua)，openresty，4层/7层LB 弹性扩容，限流(token)，熔断，防刷降级，熔断，弹性扩容多IDC，区域容灾，多ISP 集群，高可用，分片本地缓存，防刷，流控终端域名机房 LB / NG.. 网关 Cache 服务抓大不能放小[细节决定成败] 线程阻塞>300 中间件内存管理、线程状态，连接状况

0 码力 | 42 页 | 19.96 MB | 1 年前
3
微服务和Service Mesh 在多个行业落地实践

www.163yun.com 设计要点十一：全链路监控 www.163yun.com 设计要点十二：全链路压测 www.163yun.com 微服务平台总览容器平台 (多集群基础设施) Pod & Deployment 网络 Calico, OVS 存储 Ceph 滚动更新弹性伸缩日志中心基础设施监控开发集群测试集群 com 开发集群测试集群 CICD (开发流程管理) 流水线管理代码检出代码编译镜像构建集成测试部署测试平台 (集成，场景测试) 单接口用例场景用例执行集定时执行接口 Mock 覆盖率生产镜像仓库测试镜像仓库历史管理批量导入接口监控生产集群镜像中台化容器化注册发现 www.163yun.com 网易容器平台优势集群规模大：30000+节点生产检验时间长：国内首个K8S公有云容器平台稳定运行1000+天全球首批通过K8S一致性认证基于OVS的网络性能优化基于Ceph的存储性能优化多集群统一管理 www.163yun.com 某物流企业 www.163yun.com 线上

0 码力 | 39 页 | 3.06 MB | 1 年前
3
唯品会调度系统的前世今生

部署模型(跨机房) IDC-A IDC-B 接入域-A 执行结点作业实现 ZK saturn-zk-* saturn.vip.com 控制台集群 (Tomcat) ZK Observe r ob-saturn-zk-* 2台 3台 x台调度器集群接入域-B 执行结点作业实现功能地图 01 02 03 多种作业类型与作业模式资源动态平衡框架与业务隔离三大功能特性 Executor 作业实现 Saturn Core JVM System Class Loader Job Class Loader Call 类加载作业运行基本原理更多。。。超时控制多ZK集群支持监控体系手动触发批量处理强行终止 Dashboard … 为什么需要容器化资源利用提高物理资源的利用率系统弹性资源弹性伸缩运维效率上线周期、峰值应对作业隔离产品的稳定性、可靠性，进而降低产品的开发、维护等成本减少维护成本增强公司在技术领域的品牌影响力，吸引更优秀人才加入提升技术品牌目前已经开源的类似功能的产品的功能性、实用性、规模性都比 Saturn有很大差距填补开源业界空白内外代码管理策略 VIP Console (Venus体系集成) Console Executor (Java, Shell) Executor

0 码力 | 58 页 | 5.40 MB | 1 年前
3
领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践

先⾯面向应⽤用级升级  * 应⽤用实施升级  * 聚焦性能做 case  * 补⻬齐设施能⼒力力  * 积累业务升级改造经验  2. 架构级升级  * 规模化后，架构级别收益会显现业务架构升级case 的选择策略略 1. 集群/流量量⼤大/核⼼心有认知  * ⽅方便便看升级改造效果 2. 瓶颈 match 升级  (如 CPU 压不不满、IO较多、⾼高Load)  * 可以确定获得⼤大⽐比例例收益已统⼀一接⼊入⽬目标与规划 • 实现分布式回压(backpressure) • 保证整体系统稳定不不过载且充分利利⽤用资源 • 2018双11有试点实验，后续重点  •通过回压把应⽤用集群压⼒力力反馈到基础设施 • 更更精准有效的应⽤用弹性调度 •实现全异步/流式为核⼼心的服务框架 • 考虑引⼊入 Kotlin 协程 •符合现在过程式的编程习惯（⾮非 FP ⻛风格）

0 码力 | 27 页 | 1.13 MB | 1 年前
3
降级预案在同程艺龙的工程实践-王俊翔

指标规则计算指标脚本规则表达式熔断降级条件计算降级消息数据存储实时告警规则配置开发⽇日志解析规则控制中⼼心 ETCD 降级服务降级处理理流处理理集群（Flink） HBase ES Redis 落地存储数据服务数据平台实时告警告警策略略指标查询指标脚本开发指标配置产品化开发复合指标计算如何处理理希望降级不不重要的服务运营开发开发：不不清楚这样的业务场景有哪些次要服务需要降级 • 预案分级从全局建⽴立服务重要程度评估模型 • 蓝⾊色预警 - ⼩小规模⾮非核⼼心服务降级 • ⻩黄⾊色预警 - ⼤大规模⾮非核⼼心服务降级 • 红⾊色预警 - 所有⾮非核⼼心服务降级 • 预案编排 • 根据链路路关系、同等级优先级进⾏行行预案编排，形成降级执⾏行行链路路 • 线上实时预案测试、演练，演练数据回溯

0 码力 | 26 页 | 18.67 MB | 1 年前
3
海量用户推送后台系统架构实践-曾振波

极光推送后台开发工程师多年互联网开发经验，专注后台开发技术。2016年加入极光，负责极光推送平台架构设计及开发，主导包括K8S在内的技术架构实施落地，推动系统架构的演进，构造支撑海量用户的推送系统，对大规模分布式系统架构及设计有深入的理解。自我介绍 • 极光推送服务架构 • 关于极光 • 消息推送系统面临的挑战 • 极光推送相关架构 • 极光推送后台系统架构 • 后台系统架构基本原则，服务降级 • 监控及告警 • 多维度监控，告警系统极光推送后台系统架构 08 K8S部署业务 • 原有系统的运维工作繁杂，资源利用率低 • 弹性扩容 • 配置统一管理 • 内外集群隔离 • Pod包含多个容器 - 辅助容器，业务容器 • 业务模块代码架构调整 • 监控体系调整极光推送后台系统架构 09 结束语 • 高性能/低成本、高可用、高运维 • 只用验证过的开源组件

0 码力 | 23 页 | 1.26 MB | 1 年前
3

共 25 条前往

页

分类

语言

格式

大规模分布式系统架构下调测能力构建之道

超大规模高可用性云端系统构建之禅-蔡超

从百度文件系统看大型分布式系统设计中的定式与创新

高可用分布式流数据存储设计-李玥

QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+

微服务和Service Mesh 在多个行业落地实践

唯品会调度系统的前世今生

领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践

降级预案在同程艺龙的工程实践-王俊翔

海量用户推送后台系统架构实践-曾振波