22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊云原生是告诉我们:能够适应业务变化的微服务+能够适应制品变化的DevOPS+能够适应技术环境变 化的技术底座=云原生平台;其中变化是以研发循环形式不断出现和累加的,如果不进行治理,那 么这些变化就会积累,稳定性的破坏是熵增的,而云原生基础设施就要做到对变化产生的不稳定因 素进行熵减处理 • 向上站在企业立场上:是要解决微服务体系快速落地的问题,低成本支撑企业创新以及数字疆域规 模扩张 1 技术架构变化:因商业或者演化而 外部依赖变化:ERP可用性变化 带来的不稳定因素 5 人员变化:没有知识沉淀导致的 不稳定因素 4 环境变化:因安全、流量、故障、环境崩 溃、底层IT变更而变带来的不稳定因素 非云原生:无法对应变 化=稳定性无法保证 云原生:主动对应变化= 稳定性保证 什么是云原生(Cloud Native Computing)->为云而生 只有为云而生的应用才 是云原生应用 2 0 1 9 年 云 原 生 爆 发 成 为 主 攻 方 m p o s e 、 K 8 s 等 容 器 编 排 软 件 相 继 出 现 2 0 0 9 年 阿 里 云 飞 天 系 统 诞 生 聚焦于CapEx到OpEx的转变,但是应用依然需要自己解决稳定性问题 企业开始摸索大规模上云的可能性,而同时微服务架构开始出现。 2 0 0 0 年 F r e e B S D 提 出 容 器 , 而 资 源 隔 离 能 力 早 在 1 9 7 5 年 就 已 经0 码力 | 42 页 | 11.17 MB | 6 月前3
云计算白皮书热点领域和热点方向,试图在市场上抢得先机。 四是云计算技术不断推陈出新,助力产业高质量发展。随着上 云进程持续加深,企业需求逐步向用云转移,效率、性能、安全等 成为用户关注点,应用现代化、一云多芯、平台工程、云成本优化、 系统稳定性、云原生安全等新技术层出不穷,满足用户多样性场景 需求,助力产业数字化升级。 在此背景下,中国信息通信研究院继《云计算白皮书(2012 年)》 之后第 9 次发布云计算白皮书。本白皮书聚焦过去一年多来云计算 企业内部规划统一完整的云成本体系架构。目前,阿里云、腾讯云 等企业已开展 FinOps 理念落地实践,并通过云成本优化技术和工具 赋能用云企业,满足企业多样性场景需求,提升企业云管理与优化 治理成效。 稳定性层面,云上系统稳定性挑战持续存在,系统稳定性保障 云计算白皮书(2023 年) 20 体系不断完善、技术不断创新。云上系统自带“分布式”属性,各 模块之间依赖关系错综复杂,给服务性能分析、故障定位、根因分 析等 以上挑战,系统稳定性保障领域呈现以下特点:一是“稳保体系” 创新促进业务稳定运行。稳定的业务系统保障了企业的连续运营、 用户体验和客户满意度,逐步成为企业业务持续领先的“关键要素”。 应综合考虑技术、机制和组织人员情况,采用多种技术手段,如混 沌工程、全链路压测、可观测性技术、变更管控和应用多活等,从 事前、事中、事后,全流程确保系统稳定运行。目前,国内云计算 厂商对稳定性保障体系的建设均已有较完善的实践,如阿里云的0 码力 | 47 页 | 1.22 MB | 1 年前3
百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu技术方案 l 核心原则 Ø 务实、高稳定性、低迁移成本。 l 核心思路 Ø 先单跳,后双跳。 Ø 服务发现下沉到Envoy。 Ø 基于 RPC + 服务发现实现透明流量劫持。 Ø 自建配置中心,产品化封装。 l 关键技术 Ø 内核劫持,使用Loopback IP 与 服务发现一一对应。 Ø RPC劫持,构建可快速扩展标准方案。 Ø 自身稳定性,降级(兜底)、隔离、监控多种方式保证。 数据面板:envoy组件,流量转发、负载均衡 等功能. #IstioCon 收益 主要介绍如下几个方面: l 稳定性方面 (单点,多点,防雪崩,长尾优化,架构故障韧性能力) l 治理效率方面 (提升一级模块建成效率,二级模块预案能力) l 周边生态方面 (流量复制,稳定性工程,动态调参, 服务可观测性) l 覆盖率方面 (百度APP100%核心模块,流量占比>79.5% ) #IstioCon 业务无需代码改动即可开启,在线调整backup超时 分位值、熔断阈值。 2. 支持动态调整配置参数,对接智能调参系统。 防雪崩能力:动态BackupRequest #IstioCon 未来 l 强化稳定性工程。(Case覆盖、故障自动恢复) l 实现现有能力整合。(Mesh作为基础层,完全有能力整合内部Trace系统、压测平台等) l 积极拥抱社区。(积极贡献Istio社区) l 探索新应用。0 码力 | 9 页 | 2.20 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统可以把整个集群像Docker 一样打包,一键交付 , 有轻量化、超高性能、极易管 理等特点 自研 负载均衡器, 可支撑超大规模数万节点 集群运行 ,运行速度全球领先,毫秒级发布 更高稳定性 实现安全隔离 轻量化 数万节点集群运行 运行速度 全球领先 超高性能 极易管理 使用场景 私有云 完全 离线 公有云 注册 使用 自助 服务 一键 构建 到处运行 Sealos 短链路/强隔离/高安全性 存储 Openebs/sealfs 块隔离同时享有本地存储性能 网络 cilium 高性能,可计量 网关 Higress 稳定性,reload 不中断,大规模 数据库编排 kubeblocks 稳定性,充分破坏性测试 Sealos 技术选型 基于区块链的统一认证与支付系 统。 公司任何其它产品和系统都可接 入,产品之间经济联通。 价值 一键帮助客户构建一 夸张级别的降低企业基础设 施成本,绝大多数情况可以 降低 80% 资源成本。且规 模每次翻倍成本降低 30% 避免出现僵尸服务器,僵尸 应用。 所有资源统一抽象 成资源池,应用欠费自动停 止 极高的稳定性和高可用性 加强业务稳定性 一台服务器最高可跑 上千个应用 极大提升协作效率与 业务开发效率,0运维 极其一流的产品体验 大量开发者热爱的产品 附录: 官网:https://sealos.io Github:0 码力 | 29 页 | 7.64 MB | 9 月前3
大规模微服务架构下的Service Mesh探索之路Mesh的技术选型, 架构设计以及开源策略。 前言技术选型 Technical 1ü 性能要求 • 以蚂蚁金服的体量,性能不够好则难于接受 • 架构与性能之间的权衡和取舍需要谨慎考虑 ü 稳定性要求 • 以蚂蚁金服的标准,稳定性的要求自然是很高 • 高可用方面的要求很非常高 ü 部署的要求 • 需要用于多种场合:主站,金融云,外部客户 • 需要满足多种部署环境:虚拟机/容器,公有云/私有云,k8s 安心做数据平面, 提供XDS API • 设计优秀,性能和稳定性表现良好 • C++编写,和蚂蚁的技术栈差异大 • 蚂蚁有大量的扩展和定制化需求 • 我们非常认可envoy在数据平面上的表现开源方案选择之第二代Service Mesh Istio • 第一选择,重点关注对象 • 奈何迟迟不能发布生产可用版本 • 性能和稳定性远远不能满足蚂蚁的 要求 • 但我们非常认可Istio的理念和方向 C++带来的技术栈选择问题 • 我们有太多的扩展和定制 • 而且,proxy不仅仅用于mesh Istio • 控制平面:Istio是目前做的最好的 • 认可Istio的设计理念和产品方向 • 性能和稳定性是目前最大问题 • 对非k8s环境的支持不够理想 • 没有提供和侵入式框架互通的解决方案Sofa Mesh:istio的增强扩展版 Pilot Auth Mixer Envoy Pilot0 码力 | 37 页 | 7.99 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 底层的细节和差异,可以整体化 交付到这些组织所在的数据中心 里去 标准化能力-微服务PAAS-OAM交付流程模式-场景流程 • 由于互联网迭代相对于其 他企业业务更新迭代更加 频繁,引发的变更循环会 积累更多的破坏稳定性的 因素。 • 分成开发、测试(或者还 需要增加预发)、生产等 环境,要将一个变更后的 制品通过些环境的层层验 证,才能进行交付 • 由于比如电商更多关心的 是自己的业务,所以更多 购买了不同厂家的云计算0 码力 | 24 页 | 5.96 MB | 6 月前3
蚂蚁金服网络代理演进之路Maglev Ipvs Katran GFE BFE TGW Nginx Apache httpd SOFAMosn Envoy Linkerd网络的挑战网络的挑战 高效接入 访问加速 容量 稳定性 高可用 灵活弹性 安全合规 防攻击蚂蚁金服网络接入十年变迁 2010年前部署商用设备 前世 01 2010 开始网络代理白盒 化,定制业务逻辑,软 硬件一体解决方案 自研 02 2015 Mobile,iot设备等多终端支持 • OpenSSL Committer无线移动战役 操作响应慢 操作无响应 Push没消息 Push消息慢 海外消息慢 收发图片慢 建连时长 建连成功率 链路稳定性 链路一致性 RPC错误率 Push实时性 海外RTT 数据效率 快 速 稳 定 高 效 移动客户痛点 性能指标 线下支付 大促 国际支付咻一咻与敬业福咻一咻的挑战 亿级用户快速进入 • 大规模场景下需要面对的资源占用,自动化问题、性能问题,稳定性问题兼容问题 § 不同的应用,部分Mesh化 § 同一个应用,部分Mesh化 § 蚂蚁基础设施适配 § TLS加密链路平滑迁移 Localhost or Iptables 透明劫持和加速大规模问题 10万+实例 动态服务发现 运维 § 对控制平面性能,稳定性带来巨 大挑战 § 单实例数万路由节点,数千路由 规则,不仅占用内存,对路由匹0 码力 | 46 页 | 19.93 MB | 6 月前3
24-云原生中间件之道-高磊存储自动扩缩容 手工填加机器, 手工同步 完全自动化 高性能 存在性能瓶颈 类似日志方式的顺 序写,性能高 易用程度 封闭体系,集成各 类优秀能力较差 集成能力强,多模 态接口,兼容各类 协议 可用性、稳定性 需要强大的旁路运 维能力 简化运维、自动化 容量和故障转移 云原生数据库其特点,使得应用场 景会更加广泛 高级能力-云原生数据库-应用的基石-2-技术架构 Application Application Chunk Data Chunk • 云原生的本质在于为云这种弹性资源下能够为应用提供 稳定的基础架构,所以云原生数据库相对于传统数据库 最大的不同也在这个方面:弹性 • 对于数据存储的高性能、高稳定性、高拓展、资源成本 等等都需要同时满足(和传统CAP相悖) • 接入层需要能够根据规则的路由,以及兼容各类协议接 口以及数据模型,并能根据应用的规模来自动拓展。 • 实现HTAP(OLTP+OLAP),将在线事务|分析混合计算模型 借助serverless技术,快速扩容资源以补充算力,满足业务实时需 求。 • 离在线混部主要聚焦于利用在线业务空闲时段的闲置资源,通过将大数据离线计算任务调度到在线业务闲置资 源的上,在保证业务稳定性的基础上,大幅提升资源的使用效率。 • 这两种模式都使用了Yarn on Kubernetes Pod的形式,如图,其基本思想是,将Yarn NodeManager运行在 Kubernetes集群中0 码力 | 22 页 | 4.39 MB | 6 月前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验在阿里巴巴场景中的规模化落地,将 k8s 应用于阿里最核心的业务,帮助客 户以云原生的方式管理应用并获得效率、 稳定性及成本的改善。 •汪萌海(木苏),经历了阿里巴巴集团 集群调度从自研 sigma 系统迁移到 k8s 体系的过程,目前主要负责解决阿 里巴巴集团在大规模场景下使用 k8s 碰到的稳定性、容器编排质量和性能问 题。❖ 阿里巴巴容器的发展历程 ❖ 基于 k8s 云原生改造实践 ❖ k8s Reflector 3. Wait rv > rv@t0 Add Indexs 1. nodename 2. Namespace 3. Labels …… Describe node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度0 码力 | 33 页 | 8.67 MB | 6 月前3
OpenShift Container Platform 4.7 更新集群7 频道中,但这些内容可能需要一段延迟时间会被添加 到 stable-4.7 频道中。在此延迟期间,红帽 SRE 团队、红帽支持服务以及参与连接的客户程序的生产前 和产品环境中收集有关此发行版本的稳定性数据。您可以使用 stable-4.7 频道来从以前的 OpenShift Container Platform 次版本进行更新。 4.1.4. eus-4.y 频道 除了 stable 频道外,所有以数字相等的 4。您不需要一定在连续的补丁号间进行升级。在这个示例中,该 频道并没有(且从来没有)包括 4.7.2。 更新的稳定性取决于您的频道。在 candidate-4.7 频道中存在一个更新建议并不意味着这个更新会被支 持。它代表,在更新中还没有发现任何严重问题,这可能是因为此更新还没有足够的使用情况来证明它的 稳定性。如果在 fast-4.7 或 stable-4.7 频道中出现了一个更新建议,则代表这个更新被支持。虽然发行版 MCP,这样可以让您更好地控制您更新这些节点的顺序。更新第一个 MCP 中的节点后,您可以验 证应用兼容性,然后逐步将其余节点更新至新版本。 注意 注意 为确保 control plane 的稳定性,不支持从 control plane 节点(也称为 master 节点)创建 自定义 MCP。Machine Config Operator (MCO) 会忽略为 control plane 节点创建的任何0 码力 | 62 页 | 716.72 KB | 1 年前3
共 68 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













