使用Chaos Mesh来保障云原生系统的健壮性-周强云原生社区Meetup 第三期·杭州站 使用 Chaos Mesh 来保障云原生系统的健壮性 演讲人:周强 GitHub 地址:https://github.com/zhouqiang-cl PingCAP 工程效率负责人,ChaosMesh 负责人 云原生社区Meetup 第三期·杭州站 The incident in the production environment0 码力 | 28 页 | 986.42 KB | 6 月前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)....................................................................................26 2.4 路径 3:编排工具攻击................................................................................26 2.4.1k8s 组件攻击 究,致力于推动云原生在通信行业落地实践,全面落实好“大安全”主责主业, 以实际行动践行“国家队、主力军、排头兵”的责任担当。2022 年,我们在“联 通合作伙伴大会”发布了《中国联通云原生安全实践白皮书》,该书系统阐述了 云计算所面临的新型安全问题,介绍了云原生安全防护体系,并给出了云原生安 全防护体系建设实践。 过去一年来,我们持续深耕云原生安全领域,联合多家单位共同编写了《云 原生安全威胁分析与能 云原生四要素的基本含义 2020 年,云原生产业联盟发布《云原生发展白皮书》[1],指出云原生是面 向云应用设计的一种思想理念,充分发挥云效能的最佳实践路径,帮助企业构建 弹性可靠、松耦合、易管理可观测的应用系统,提升交付效率,降低运维复杂度, 代表技术包括不可变基础设施、服务网格、声明式 API 及 Serverless 等。云 原生技术架构的典型特征包括:极致的弹性能力,不同于虚拟机分钟级的弹性响0 码力 | 72 页 | 2.44 MB | 1 年前3
中国移动磐舟DevSecOps平台云原生安全实践磐舟DevSecOps平台定位 基于云原生打造一站式DevSecOps平台,致力于解决企业在数字化转型中的研发效能提升问题,提供从 “需求-开发-测试-发布-运维-运营”端到端的协同服务和研发工具支撑。助力企业产品快速创新迭代,进行 数智化化转型、实现业务价值。 • 端到端自动化交付流水线 • 开发过程自主可控 • 一键发布上磐基,实现“乘舟上云,稳如磐基” • 沉淀IT软件资产,核心代码掌控 沉淀IT软件资产,核心代码掌控 • 提升开发交付效率 一键 上磐基 构建 打包 容器 化镜 像 自动化 部署 研发安 全扫描 需求 设计 敏捷 开发交付协同 云原生DevSecOps 安全工具链 国产化 双平面调度 敏捷开 发过程 统一代 码仓库 依赖制 品仓库 统一 镜像库 云原生 验证环境 磐基 生产运行 核心价值 核心能力 灵活的低代码能力 实现页面组件、数据组件、功能组件的快 DevOps解决方案最高等 级先进级的现场认证 ü 2021年通信行业云计算领域风云团队奖 ü 创新解决方案证书 最高等级认证 优秀案例 专业认证 获奖情况 人 1,00000000000 系统 国家 稳定 发展 健康 财富 安全 创新 安全的重要性 01 磐舟DevSecOps平台概况 02 磐舟DevSecOps平台安全能力 03 磐舟DevSecOps实践总结 目 录0 码力 | 22 页 | 5.47 MB | 1 年前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PA 硬件环境 遗留系统 安装配置点 安装配置点 安装配置点 集成点 集成点 集成点 1. 交付人员学习手册文档,需要在客户 环境做“安装配置”和“与遗留系统集成” 两方面工作。 2. 安装配置:在硬件上安装软件,不乏 针对硬件特性的适配、还需要安装OS 等,最后还要在OS上安装应用,并且 还要保证应用软件依赖拓扑结构不会 出错。 3. 集成点:包括新环境的硬件、软件和 应用与遗留系统的集成,比如,监控、 应用与遗留系统的集成,比如,监控、 服务注册中心、文件传输、消息集成、 ITSM等系统的部署集成。 4. 由于上层所依赖的底层环境在不同交 付环境中是不同的,而传统交付方式 缺乏脚本能“理解”的方式来表达这些 差异,此外由于事后更新OS、三方库 或者系统,这些变更又缺乏校验关系, 升级时很难给予企业信心,这种交付 方式很难被自动化。 标准化能力-微服务PAAS-OAM-万花筒PAAS-1-引子 客户环境交付 制品0 码力 | 24 页 | 5.96 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-1 远端控制 云端分析系统 设备端 自动化解决用户使用体验问题,计算量属于窄带范畴, 所以计算算力重点在于云端,云端计算体系架构成熟, 成本较低,在业务上本地的设备根据模式信号反馈一些 动作,比如下雨关窗帘,是自动化范畴,上传云端的数 据都是属性数据,比如谁什么时候干了什么,后续云端 根据个人喜好数据为用户提供比如按照个人喜好调节温 根据个人喜好数据为用户提供比如按照个人喜好调节温 度、或者提送广告内容等 自动化特征 智能家居 智能办公室 智能信号灯... 远端控制 云端分析系统 设备端 (现场)边缘计算BOX 业务场景复杂,对算力、通信要求很高,计算放置于 云端时效性差,另外无法现场就对业务进行处理,比 如计算路口交通事故预警,给予司机及时提示等,所 以将算力卸载在距离业务现场、设备最近的地方,就 是边缘计算的场景,它的价值空间远超AIoT,可以更 高级能力-业务双引擎循环驱动-业务数据化、数据业务化 互联网业务、万物互联业务等等造就了海量数据,而海量数据应该也必须能够提炼出价值为业务反向赋能,形成正向业务价值循环 云原生平台(PaaS+Caas+IaaS) 业务系统连接一组人,或者说企业业务实际能力提供者,通过双中台可 以将最上层业务产品诉求直接下沉到能力端,比如我们需要快速搭建一 个电商下单APP,只需要利用中台提供的能力要素,并在APP端组织业务 流程或者0 码力 | 20 页 | 5.17 MB | 6 月前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 如何选择混沌测试工具 为什么是 Chaos Mesh Chaos Mesh 在网易伏羲的实践 网易伏羲私有云简介 网易伏羲私有云简介 AI 模型 支撑游戏业务 云游戏 为什么混沌测试 为什么混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 事故突然的到来 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh0 码力 | 25 页 | 3.33 MB | 6 月前3
SBOM 为基础的云原生应用安全治理软件物料清单(SBOM, Software Bill Of Material)是云原生时代应用风险治理的基础设施。 特点: • 是治理第三方组件风险(开源+闭源)的必备工具; • 可深度融合于DevOps应用生产模式; • 可与多种DevSecOps工具链联动强化效能(SCA、RASP、漏洞情报); • 在云原生应用的开发端及运营端均发挥作用。 实践现状 SBOM的应用现状 • 根据《Anchore 息且机器可读的规范性清单。 实践要点——固化到流程和体系 围绕SBOM建立管理流程 轻量方案 落地方案 开发测试:将SCA工具对接到 DevOps流程里,对编译构建环节卡 点,保障软件构建时所依赖组件的安 全性,确保不引入存在漏洞的组件; 使用基于插桩技术的IAST工具,在功 能测试的同时,检测是否存在高危漏 洞风险,并展示漏洞触发数据流,便 于修复指导。 源头 检测 积极防御:针对今后随时可能爆发的 SBOM,SBOM 作为制品成分清单,同时建立软件构成图谱,为后续分析提供基础,即分析开 发人员所使用的各种源码、模块、框架和库,以识别和清点开源软件(OSS)的组件及其构成和依赖关系,并精准识 别系统中存在的已知安全漏洞或者潜在的许可证授权问题。 IAST——API安全检测 doubo fosf://xxx.services.id 网关 nginx doubo java java java0 码力 | 30 页 | 2.39 MB | 1 年前3
24-云原生中间件之道-高磊和降低成本 默认安全策略,可以天然的规避大部分 安全问题,使得人员配置和沟通工作大 量减少,提高了整体效率! 安全右移是为了恰到好处的安全,一些非严 重安全问题,没有必要堵塞主研发流程,可 以交于线上安全防御系统。提高了整体实施 效率! 安全编排自动化和响应作为连接各个环 节的桥梁,安全管理人员或者部分由 AIOps组件可以从全局视角观察,动态 调整策略,解决新问题并及时隔离或者 解决! DevSecOps 术手段 可以自动化的对非预计风险进行识别和风险隔离 对系统性能有一定影响 可信计算 核心目标是保证系统和应用的完整性,从而保证系统按照设计预期所规 定的安全状态。尤其是像边缘计算BOX这种安全防护,根据唯一Hash值验 证,可以实现极为简单的边云接入操作,运行态并不会影响性能。 可信根一般是一个硬件,比如CPU或者TPM,将从 它开始构建系统所有组件启动的可信启动链,比 如UEFI、loader、OS、应用等,可以确保在被入侵 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 高并发: 满足千万级并发访问 存算分离: 按需分别订购计算与存储,成本低、故障恢复快 利用HTAP模式,可以将查询和分析合并 起来,更加节约成本,并提高了性能0 码力 | 22 页 | 4.39 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 各行业IT应用系统不断丰富与创新 总部 机关 内部员工 分支 机构 内部员工 移动 接入 内部员工/合作伙伴 OA CRM HRM …… BPM MES 稳态IT WEB APP 移动用户 采购 平台 稳定交付的要求 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时、按需扩展/收缩所 用资源? 场景 3 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 资源? 场景 3 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加0 码力 | 42 页 | 11.17 MB | 6 月前3
02. Kubevela 以应用为中心的渐进式发布 - 孙健波只描述了应用产品元数据, 研发、运维无从入手。 2. 无人维护、缺乏活跃度。 3. 信息不足以对接发布。 kubernetes-sigs/application 几乎成为事实标准的应用打包工具 helm 1. 黑盒,不明确内部有哪些 资源。 2. 无法使用/对接云资源。 3. 发布能力缺失,使用 helm upgrade 没有灰度 能力。 Helm Chart 基于 CRD 署环境(环境无关) 查看“能力模板”的用法 1. 能力模板注册时,KubeVela 控制器会 自动生成 OpenAPI v3 的 json schema 文件和文档。 2. 通过 vela 的命令行工具可以查看。 3. 用户也可以自己基于 json schema 去 渲染集成进自己的前端。 KubeVela 的能力模板 – 组件类型 抽象封装方式 K8s 对象模板 CUE 模板 工作负载类型 yaml 平台管理员: ● 执行 $ kubectl apply -f metrics.yaml 用户: ● 立刻就可以在 Application 中定义一个新的字段 metrics ● 无需系统更新或重启 Platform Builder 模型层能力注册 KubeVela 为什么能对不同 Workload 做统一发布? 工作负载类型 ① 统一 类型注册和识别 健康检查 ② 统一 状态检查和回流0 码力 | 26 页 | 9.20 MB | 1 年前3
共 25 条
- 1
- 2
- 3













