23-云原生观察性、自动化交付和 IaC 等之道-高磊行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链 日志查询 根因分析 响应动作 自动化 高端观察性 各维度统计分析 观察性 Prometheus Skywalking EFK Hadoop Spark Cortex ....... 传统交付方式的不足之处 手册文档 配置参数 由于上层所依赖的底层环境在不同交 付环境中是不同的,而传统交付方式 缺乏脚本能“理解”的方式来表达这些 差异,此外由于事后更新OS、三方库 或者系统,这些变更又缺乏校验关系, 升级时很难给予企业信心,这种交付 方式很难被自动化。 标准化能力-微服务PAAS-OAM-万花筒PAAS-1-引子 客户环境交付 制品 • 云应用交付最难的还不是RT的 碎片化,最难的是环境依赖的 碎片化,比如,硬件环境、网 络环境、运维规范等的碎片化。 或者大家常说的定制化场景,如果不进行解耦就会有长期存在的矛盾。 • 为了应付定制化,客户需要等待平台研发的排期,因为平台研发需要定制 化处理定制化场景下的软件、运维工具或者规范等等,并需要不断的测试。 • 为了应付各类的环境的问题,势必要求交付人员的能力非常强,也是成本 居高不下的原因之一。 在K8s这种环境中,存在两种定制化的手段:其一是Deployment API,但是它却 把研发和运维0 码力 | 24 页 | 5.96 MB | 6 月前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧在网易伏羲私有云自动化故障注入实践 Speaker Name:张慧 网易伏羲 Speaker Title:网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email:zhangui05@corp.netease.com 云 原 生 学 院 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 如何选择混沌测试工具 为什么是 为什么混沌测试 为什么混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 事故突然的到来 为什么混沌测试 通用指标 阶段性进阶衡量 标准 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos:0 码力 | 25 页 | 3.33 MB | 6 月前3
中国移动磐舟DevSecOps平台云原生安全实践,提供从 “需求-开发-测试-发布-运维-运营”端到端的协同服务和研发工具支撑。助力企业产品快速创新迭代,进行 数智化化转型、实现业务价值。 • 端到端自动化交付流水线 • 开发过程自主可控 • 一键发布上磐基,实现“乘舟上云,稳如磐基” • 沉淀IT软件资产,核心代码掌控 • 提升开发交付效率 一键 上磐基 构建 打包 容器 化镜 像 自动化 部署 研发安 全扫描 需求 磐舟DevSecOps平台概况 02 磐舟DevSecOps平台安全能力 03 磐舟DevSecOps实践总结 目 录 目录 CONTENT 磐舟DevSecOps安全能力建设框架 安全开发 • • • 安全测试 • • • 安全管控 • • • 安全运营 • • • 一个体系、两个方向、四个环节 PLAN CODE DEPLOY OPERATE MONITOR RELEASE TEST 可治 90%效率提升 可防 100%流程覆盖 ü 建立资产台账 ü 分类分级标记 ü 关联责任人 ü 关联内外网业务 ü 漏洞及投毒检测 ü 自主可控率分析 ü 许可证合规分析 ü 自动化修复技术 ü 安全可信私有源 ü 供应链准入审查 ü 供应链准出机制 ü 过程持续验证 !"#$%&'( !"#$)*+,- !"#$%&' 安全开发-代码扫描SAST 源代码审计0 码力 | 22 页 | 5.47 MB | 1 年前3
24-云原生中间件之道-高磊安全问题左移一个研发阶段,修复成本就将 提升十倍,所以将安全自动化检查和问题发 现从运行态左移到研发态,将大大提高效率 和降低成本 默认安全策略,可以天然的规避大部分 安全问题,使得人员配置和沟通工作大 量减少,提高了整体效率! 安全右移是为了恰到好处的安全,一些非严 重安全问题,没有必要堵塞主研发流程,可 以交于线上安全防御系统。提高了整体实施 效率! 安全编排自动化和响应作为连接各个环 节的桥梁,安全管理人员或者部分由 SAST(静态应用程序 安全测试) 白盒测试,通过污点跟踪对源代码或者二进制程序(也包括Docker镜像等) 进行静态扫描,尽可能前置,在IDE编写代码或者提交代码时进行,将极 大优化整体效率和成本 可以无视环境随时可以进行,覆盖漏洞类型全面, 可以精确定位到代码段 路径爆炸问题,并一定与实际相符合,误报率较 高。 DAST(动态安全应用 程序安全测试) 黑盒测试,通过模拟业务流量发起请求,进行模糊测试,比如故障注入 或者混沌测试 语言无关性,很高的精确度。 难以覆盖复杂的交互场景,测试过程对业务造成 较大的干扰,会产生大量的报错和脏数据,所以 建议在业务低峰时进行。 IAST(交互式应用程序 安全测试) 结合了上面两种的优点并克服其缺点,将SAST和DAST相结合,通过插桩 等手段在运行时进行污点跟踪,进而精准的发现问题。是DevSecOps的一 种推荐方式。 如果在被动模式下运行IAST,那么开发测试过程 中0 码力 | 22 页 | 4.39 MB | 6 月前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)应用架构》,探讨了云原生应用架构的 5 个主要特征:符合 12 因素应用、面 向微服务架构、自服务敏捷架构、基于 API 的协作和抗脆弱性。同一年,Google 作为发起方成立 CNCF,指出云原生应该包括容器化封装、自动化管理、面向 微服务。到了 2018 年,CNCF 又更新了云原生的定义,把服务网格和声明式 API 给加了进来。后来,随着云计算的不断发展,云原生的簇拥者越来越多,这 一体系在反复的修正与探索中逐渐成熟。VMware 原生技术架构的典型特征包括:极致的弹性能力,不同于虚拟机分钟级的弹性响 应,以容器技术为基础的云原生技术架构可实现秒级甚至毫秒级的弹性响应;服 务自治故障自愈能力,基于云原生技术栈构建的平台具有高度自动化的分发调度 调谐机制,可实现应用故障的自动摘除与重构,具有极强的自愈能力及随意处置 性;大规模可复制能力,可实现跨区域、跨平台甚至跨服务的规模化复制部署。 由此可见,云原生作为一种新兴的安全理念,是一种构建和运行应用程序的 DevOps、持续交付、微服务和容器技术为代表,符合云 原生架构的应用程序应该:采用开源堆栈(k8s+Docker)进行容器化,基于微 服务架构提高灵活性和可维护性,借助敏捷方法、DevOps 支持持续迭代和运维 自动化,利用云平台设施实现弹性伸缩、动态调度、优化资源利用率。 云原生安全威胁分析与能力建设白皮书 12 1.1.2 云原生安全 云原生安全作为云原生的伴生技术,旨在解决云原生技术面临的安全问题,0 码力 | 72 页 | 2.44 MB | 1 年前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊…… …… 应用丰富及架构演进带来的开发和运维复杂性 本地IDC 虚拟化 超融合 公有云 …… 测试环境 生产环境 复杂的应用软件架构,在开发、测试、运维 团队之间建成了认知的“墙”,团队间配合效 率低,故障排查慢,阻碍了软件价值的流动 无法满足用户对于业务快速研发、 稳定交付的要求 场景 1 如果生产 级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 工作量 成本 新一代架构(微服务)应用的对承载平台提出新要求 传统实践中,主要采用虚机/物理机+SpringCloud等微服务框0 码力 | 42 页 | 11.17 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-1 远端控制 云端分析系统 设备端 自动化解决用户使用体验问题,计算量属于窄带范畴, 所以计算算力重点在于云端,云端计算体系架构成熟, 成本较低,在业务上本地的设备根据模式信号反馈一些 动作,比如下雨关窗帘,是自动化范畴,上传云端的数 据都是属性数据,比如谁什么时候干了什么,后续云端 根据个人喜好数据为用户提供比如按照个人喜好调节温 根据个人喜好数据为用户提供比如按照个人喜好调节温 度、或者提送广告内容等 自动化特征 智能家居 智能办公室 智能信号灯... 远端控制 云端分析系统 设备端 (现场)边缘计算BOX 业务场景复杂,对算力、通信要求很高,计算放置于 云端时效性差,另外无法现场就对业务进行处理,比 如计算路口交通事故预警,给予司机及时提示等,所 以将算力卸载在距离业务现场、设备最近的地方,就 是边缘计算的场景,它的价值空间远超AIoT,可以更 是边缘计算的场景,它的价值空间远超AIoT,可以更 大范围为客户赋能,IoT和边缘计算一定走向融合。 定位为基于物模型的计算 定位为基于业务的计算 高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-2 • 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计0 码力 | 20 页 | 5.17 MB | 6 月前3
基于Consul的多Beats接入管控与多ES搜索编排如何保障日志采集不影响业务 如何做配置标准化 如何帮助业务快速排障 如何提供方便便捷的性能分析 调优能力 … 4 多Beats/Logstash接入 管控 提供多产品接入管理,多beats标准 化、界面化、自动化的日志接入方案 5 案例:1000+业务10000+台 主机如何快速实现日志接入? 业务规模 1000+业务、 10000+业务主机、每天百T日志增量 日志需求 收集业务日志文件用于故障分析与告警监控 收集业务日志文件用于故障分析与告警监控 收集主机性能数据做容量分析 日志热数据保存七天 历史数据冷备一个月 其他诉求 日志上报不能影响核心业务 数据上报延时可感知 准备ES 安装Filebeat 编写Filebeat配置文件 测试并下发配置 全网重启filebeat 检测数据是否上报 传统Beats接入流程 配置更改 现网配置是否全部一致? 日志上报是否有延时? Filebeat是否资源消耗过多? Filebeat异常退出如 Kibana查日 志 集中管理配置 • 规模化自动化部署Agent • 按业务逻辑划分机器组 • 集中配置,关联机器组 • Agent离线实时感知 • 配置一致性离线分析 • 多beats同时管控 11 当前收益 快 稳 准 • 快速接入(5min) • 配置UI化标准化 • 配置变更实时感知 • 部署全自动化 • 多Beats支持 • Beats运行时cpu/mem可控0 码力 | 23 页 | 6.65 MB | 1 年前3
云原生微服务最佳实践云原生和微服务简介 微服务的价值和挑战 图片源自:http://www.zyiz.net/ 价值 效率(人越来越贵,算力越来越便宜) • 研发超过 10 人在 1 个代码冲突多 • 系统超过 5 个测试&上线协同代价大 • 数字化升级需要快速迭代 性能 • 单机成为性能瓶颈 可用性 • 单机成为可用性瓶颈 挑战 • 技术复杂度上升 • 运维成本上升 • 可定位性变差 • 快速迭代难以控制风险 经过阿里双十一考验的默认高可用能力 服务治理最佳实践 • 服务元信息 运行态Ops 开发态Dev 安全态Sec 发布态 高可用 测试态Test • 服务契约管理 • 服务调试 • 服务Mock • 端云互联 • 开发环境隔离 • 服务压测 • 自动化回归 • 流量录制 • 流量回放 • 无损上下线 • 服务预热 • 金丝雀发布 • A/B Test • 全链路灰度0 码力 | 20 页 | 6.76 MB | 1 年前3
SBOM 为基础的云原生应用安全治理安全团队:通过提交的SBOM分析软件风险,并通过统一管理进行持 续监控,及时响应安全事件; 〇 法务团队:核查软件授权问题,避免后续公司业务自身权益受到损害。 实践要点 实践要点——与漏洞情报关联 实践要点——拥抱自动化 ——《The Minimum Elements for an SBOM》,NTIA 实践要点——使用标准化格式 美国国家电信和信息管理局(NTIA)发布的《构建软件 组件透明度:建立通用软件物料清单(SBOM)》第二版 息且机器可读的规范性清单。 实践要点——固化到流程和体系 围绕SBOM建立管理流程 轻量方案 落地方案 开发测试:将SCA工具对接到 DevOps流程里,对编译构建环节卡 点,保障软件构建时所依赖组件的安 全性,确保不引入存在漏洞的组件; 使用基于插桩技术的IAST工具,在功 能测试的同时,检测是否存在高危漏 洞风险,并展示漏洞触发数据流,便 于修复指导。 源头 检测 积极防御:针对今后随时可能爆发的0 码力 | 30 页 | 2.39 MB | 1 年前3
共 17 条
- 1
- 2













