36-云原生监控体系建设-秦晓辉Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时代,基础设施动态化,Pod销毁重建非常频繁 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机器、交换机、中间件的监控,每个监控对象一个标识即可,没有维度的设计 •新一代监控系统更加关注应用侧的监控,没有维度标签玩不转,每个指标动辄几个、十几个标签 指标维度更为丰富 •Kubernetes体系庞大,组件众多,涉及underlay、overlay两 层网络,容器内容器外两个namespace,搞懂需要花些时间 •Kubernetes的监控,缺少体系化的文档指导,关键指标是哪些?最佳实践是什么?不是随便搜索几个yaml文件能搞定的 平台侧自身复杂度变高, 监控难度加大 从 Kubernetes 架构来 看要监控的组件 Kubernetes架构 l 服务端组件,控制面:API Server、Scheduler、 Controller-Manager、ETCD0 码力 | 32 页 | 3.27 MB | 6 月前3
25-云原生应用可观测性实践-向阳complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 问题2:重复建设 业务团队A 业务团队B 业务团队C 业务团队D simplify the growing complexity © 2021, YUNSHAN Networks Technology Co., Technology Co., Ltd. All rights reserved. 2.0 服务:统一的可观测性平台 可观测性平台(Metrics、Tracing、Logging) 基础设施团队 业务团队A 业务团队B 业务团队C 业务团队D …… 存储、检索服务 观测数据 观测数据 观测数据 观测数据 simplify the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 问题1:团队耦合 开发团队100%驱动力 运维团队100%驱动力 服务 数据 ??团队??%驱动力 谁来承担业务稳定的职责? 谁来承担业务交付的职责? 谁来升级“观测Library”? 谁来观测“观测Library”? simplify the growing complexity © 2021, YUNSHAN Networks0 码力 | 39 页 | 8.44 MB | 6 月前3
01. MOSN 高性能网络扩展实践 - 王发康技术复用度差、治理体系不统一等。 MoE 背景介绍 — 为什么做 用户痛点 • east-west、north-south Gateway 技术栈不统一, 维护成本高 • Envoy C++ 编写,对于 业务方来说开发门槛高 技术趋势 • Lua extension • WASM extension • External-proc extension 可扩展性、灵活性、生态 价值意义 • 技术共享,融合 GoLang 社区生态粘性 MoE Envoy 和 GoLong 生态打通 维护成本高、可扩展性弱 MoE 背景介绍 — 方案调研 方案名称 优势 劣势 Lua Extension Lua 编写简单业务处理方便 Lua 脚本语言,开发复杂功能不方便 支持的库(SDK)相对较少 WASM Extension 跨语言语言支持(C/C++/Rust)、 隔离性、安全性、敏捷性 处于试验阶段,性能损耗较大; filter 能力, 改造成本低; 研发效率高,灵活性高; GoLang 支持的库比较多(Consul、 Redis、Kafka etc),生态较好 引入 GoLang 扩展后,有一定性能损 耗,业务场景可接受,另外有优化 空间 扩展方案调研 MoE 背景介绍 — 方案分析 方案名称 稳定性 性能 成本 生态 Lua Extension 高 高 高 较低 WASM Extension ES0 码力 | 29 页 | 2.80 MB | 1 年前3
24-云原生中间件之道-高磊rkLoad 间授权等)、DevSecOps(安全左右移等等,比如代码或者镜像扫描)、 RASP应用安全、数据安全、态势感知与风险隔离 由于云原生托管的应用是碎片化的,环境变化也是碎片化的,而且其业务类型越来越多,比如已经延展到边 缘计算盒子,此时攻击面被放大,在云原生环境下安全是一个核心价值,需要立体纵深式的安全保障。 由于云原生DevOps环境追求效率以及运行态的动态治理能力,导致传统安全实施方法、角色、流程、技术 路径爆炸问题,并一定与实际相符合,误报率较 高。 DAST(动态安全应用 程序安全测试) 黑盒测试,通过模拟业务流量发起请求,进行模糊测试,比如故障注入 或者混沌测试 语言无关性,很高的精确度。 难以覆盖复杂的交互场景,测试过程对业务造成 较大的干扰,会产生大量的报错和脏数据,所以 建议在业务低峰时进行。 IAST(交互式应用程序 安全测试) 结合了上面两种的优点并克服其缺点,将SAST和DAST相结合,通过插桩 SCA就是解决此类问题的办法,通过自动化分析组件版本并与漏洞库相 比较,快速发现问题组件,借助积累的供应链资产,可以在快速定位的 同时,推动业务快速修复。 安全左移的一种,在上线前发现依赖组件的安全 问题,快速借助供应链资产库,帮助业务修复问 题。 需要进行大量的安全特征以及资产库的建设或者 三方集成。(涉及业务能力) RASP(运行时安全应 用程序自我保护) 可以看做是IAST的兄弟,RASP通过程序上下文和敏感函数检查行为方式0 码力 | 22 页 | 4.39 MB | 6 月前3
构建统一的云原生应用 可观测性数据平台complexity. 数据打通并不简单 ② 应用、系统、网络的Metrics之间 例如:某个Service的Pod的QPS、IOPS、BPS分别是多少? 例如:Pod所在的KVM宿主机的CPU、内存指标? ② 看云网更清晰 Simplify the growing complexity. 数据打通并不简单 ③ Metrics与「非Aggregatable」的Log 例如:QPS降低与进程、服务器的日志有关联吗? ? ⑥ 看云网更清晰 Simplify the growing complexity. 我们需要哪些Tag?OpenTelemetry的答案 服务属性 代码属性 实例属性 请求属性 业务属性 看云网更清晰 Simplify the growing complexity. 混合云环境下的资源属性还有哪些 HOST KVM KVM VM L2GW、OvS iptables、ipvs 解析 聚合 关联 压缩 零侵扰的采集与分析 发送 零侵扰的云原生应用可观测性 Flow 数据节点 云原生,水平扩展 监控数据 性能指标 调用日志 网络链路 由业务代码驱动的可观测性数据、云API数据 调用关系 知识图谱 链路追踪 黄金指标 关联 应用链路(Tracing) 应用日志(Logging) 应用链路 TraceID N F V 公 有 云 / 私 有 云 企业混合云0 码力 | 35 页 | 6.75 MB | 1 年前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-1 远端控制 云端分析系统 设备端 自动化解决用户使用体验问题,计算量属于窄带范畴, 所以计算算力重点在于云端,云端计算体系架构成熟, 成本较低,在业务上本地的设备根据模式信号反馈一些 动作,比如下雨关窗帘,是自动化范畴,上传云端的数 据都是属性数据,比如谁什么时候干了什么,后续云端 根据个人喜好数据为用户提供比如按照个人喜好调节温 (现场)边缘计算BOX 业务场景复杂,对算力、通信要求很高,计算放置于 云端时效性差,另外无法现场就对业务进行处理,比 如计算路口交通事故预警,给予司机及时提示等,所 以将算力卸载在距离业务现场、设备最近的地方,就 是边缘计算的场景,它的价值空间远超AIoT,可以更 大范围为客户赋能,IoT和边缘计算一定走向融合。 定位为基于物模型的计算 定位为基于业务的计算 高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 平台位于云端,而推 理计算位于BOX端,并 且能够适应各类算法 和硬件的要求,形成 一个通用计算平台, 更普遍的为客户场景 赋能。 • 一切围绕如何将算力 输送到业务场景为中 心思想,构建技术体 系。 高级能力-业务双引擎循环驱动-业务数据化、数据业务化 互联网业务、万物互联业务等等造就了海量数0 码力 | 20 页 | 5.17 MB | 6 月前3
中国移动磐舟DevSecOps平台云原生安全实践基于云原生打造一站式DevSecOps平台,致力于解决企业在数字化转型中的研发效能提升问题,提供从 “需求-开发-测试-发布-运维-运营”端到端的协同服务和研发工具支撑。助力企业产品快速创新迭代,进行 数智化化转型、实现业务价值。 • 端到端自动化交付流水线 • 开发过程自主可控 • 一键发布上磐基,实现“乘舟上云,稳如磐基” • 沉淀IT软件资产,核心代码掌控 • 提升开发交付效率 一键 上磐基 构建 16 14 0 50 100 150 200 250 本单位 省公司 省公司(直投) 专业公司 入驻项目数 工程类 研发类 新业务开发 87055条/个 平台管理的需求、任务、缺陷、文档、镜像等数字资产 10.43亿 平台管理的业务或应用代码行数 215.87万 平台进行代码质量扫描、代码安全扫描、镜像安全扫描、整体安全扫描量 183.81万 提交代码、构建、部署总次数,其中x86构建16 自适应安全(持续监控&响应) SEC 安全需求 业务需求进来以后从五个维度对业务需求进行安全分析 威胁分析模型 威胁资源库 安全需求基线 威胁情报库 病例库 安全开发-安全需求分析 安全需求分析通过将安全策略左移至软件开发生命周期的初始阶段,着重在需求设计环节确定关键安全要求,旨在降低风险暴露 并增强产品安全质量。安全团队针对企业内部的业务流程和场景展开威胁建模与风险识别,同时依据实际生产漏洞的运营情况完0 码力 | 22 页 | 5.47 MB | 1 年前3
基于Consul的多Beats接入管控与多ES搜索编排如何保障日志采集不影响业务 如何做配置标准化 如何帮助业务快速排障 如何提供方便便捷的性能分析 调优能力 … 4 多Beats/Logstash接入 管控 提供多产品接入管理,多beats标准 化、界面化、自动化的日志接入方案 5 案例:1000+业务10000+台 主机如何快速实现日志接入? 业务规模 1000+业务、 10000+业务主机、每天百T日志增量 日志需求 收集业务日志文件用于故障分析与告警监控 收集业务日志文件用于故障分析与告警监控 收集主机性能数据做容量分析 日志热数据保存七天 历史数据冷备一个月 其他诉求 日志上报不能影响核心业务 数据上报延时可感知 准备ES 安装Filebeat 编写Filebeat配置文件 测试并下发配置 全网重启filebeat 检测数据是否上报 传统Beats接入流程 配置更改 现网配置是否全部一致? 日志上报是否有延时? Filebeat是否资源消耗过多? 录入ES 创建主机组 添加主机 配置日志主题 选择主机组 日志配置 权限管理 资源设置 提交策略 Kibana查日 志 集中管理配置 • 规模化自动化部署Agent • 按业务逻辑划分机器组 • 集中配置,关联机器组 • Agent离线实时感知 • 配置一致性离线分析 • 多beats同时管控 11 当前收益 快 稳 准 • 快速接入(5min) • 配置UI化标准化0 码力 | 23 页 | 6.65 MB | 1 年前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 容器调度系统,无法做到通用化, 所以客户必须要求先做针对K8S的 应用改造。 K8S没有应用概念,用户面对的是Workload和Pod这样的概念,以及对应的运维概念(比如 HPA),在层次上是靠近对资源的抽象治理层面,对于业务研发人员而言是不友好的。应用 =Workload+运维特性+.......多种东西的集成,也无法在应用级别上进行管理。 ISV研发团队 标准化能力-微服务PAAS-OAM-万花筒PAAS-20 码力 | 24 页 | 5.96 MB | 6 月前3
1.3 MOSN 在云原生的探索及实践系不统一等。 MOE 背景介绍 — 为什么做 用户痛点 • east-west、north-south Gateway 技术栈不统一, 维护成本高 • Envoy C++ 编写,对于 业务方来说开发门槛高 技术趋势 • Lua extension • WASM extension • External-proc extension 可扩展性、灵活性、生态 价值意义 社区生态粘性 MOE Envoy 和 GoLong 生态打通 维护成本高、可扩展性弱 MoE 背景介绍 — 方案调研 方案名称 优势 劣势 Lua Extension Lua 编写简单业务处理方便 Lua 脚本语言,开发复杂功能不 方便;支持的库(SDK)相对较 少 WASM Extension 跨语言语言支持 (C/C++/Rust)、隔离性、安 全性、敏捷性 处于试验阶段,性能损耗较大; filter 能 力,改造成本低;研发效率高, 灵活性高;GoLang 支持的库比 较多(Consul、Redis、Kafka etc),生态较好 引入 GoLang 扩展后,有一定性 能损耗,业务场景可接受,另外 有优化空间 MoE 背景介绍 — 方案分析 方案名称 稳定性 性能 成本 生态 Lua Extension 高 高 高 较低 WASM Extension ES 低 高 活跃0 码力 | 36 页 | 35.61 MB | 1 年前3
共 23 条
- 1
- 2
- 3













