36-云原生监控体系建设-秦晓辉云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 6 月前3
24-云原生中间件之道-高磊支持PB级数据存储 高并发: 千亿数据实时分析 数据源 设备监控 传感器 轨迹数据 车联网 业务集群 物联网套件写入 云原生 DB 轨迹查 询|实时 监测 MR 云原 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中,分析结果输出到用户的监控前端系统展示,实现物联网数据的实时 监控分析。 优势 易接入: 轻松对接消息系统、流计算系统 云盘挂载、卸载效率提高:可以灵活的将块设备在不同节点进行快速的挂载切换; • 存储设备问题自愈能力增强:提供存储服务的问题自动修复能力,减少人为干预; • 提供更加灵活的卷大小配置能力。 2. 监控能力需求 • 多数存储服务在底层文件系统级别已经提供了监控能力,然后从云原生数据卷角度的监控能力仍需要加强,目前提供的PV监控数据维度较 少、监控力度较低; 具体需求: • 提供更细力度(目录)的监控能力; • 提供更多 提供更多维度的监控指标:读写时延、读写频率、IO 分布等指标; 3. 性能要求 • 在大数据计算场景同时大量应用访问存储的需求很高,这样对存储服务带来的性能需求成为应用运行效率的关键瓶颈 具体需求: • 底层存储服务提供更加优异的存储性能服务,优化 CPFS、GPFS 等高性能存储服务满足业务需求; • 容器编排层面:优化存储调度能力,实现存储就近访问、数据分散存储等方式降低单个存储卷的访问压力。0 码力 | 22 页 | 4.39 MB | 6 月前3
25-云原生应用可观测性实践-向阳complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云监控扛把子 Datadog 零侵入 == 全覆盖 == 监控入口 Datadog Universal Service Monitoring 要点: 1、Alerts and SLOs for every service 2、No code the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 业界动向 —— 云厂商监控 阿里云ARMS 问题:依赖于eBPF,仅支持Kernel 4.15+、仅阿里云(K8s需托管) simplify the growing complexity © 2021, YUNSHAN 应用连接方式的变化 应用监控的变化 传统的方法: 开发人员埋点, 标准SDK/JavaAgent, 流量分光镜像。 云原生下的难题: 微服务迭代快, 侵入式监控效率低; 云网络虚拟化, 东西向流量监控难。 挑战/必要性:网络的动态性和复杂性,不监控流量谈何应用可观测 机遇/有效性:云网络连接API/函数,监控流量可零侵入实现应用可观测 è 云原生应用可观测“原力”,流量监控能力是机遇、基石 simplify0 码力 | 39 页 | 8.44 MB | 6 月前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院)云原生在改变了企业上云及构建新一代基础设施的同时,作为一项新兴技术 也带来了一系列新的问题,对企业原有的信息安全防护模式提出了新的挑战,例 如,微服务、容器运行时的短生命周期、CI/CD 全流程监控缺失、镜像及供应链 的复杂性等。另外,云原生技术生态涵盖基础设施到 DevOps 开发多个维度, 这打破了原有的信息安全视角。在应对不断出现的针对云原生基础设施、平台及 容器的安全威胁过程中, 云原生安全作为一种新兴的安全理念,不仅要解决云计算普及带来的安全问 云原生安全威胁分析与能力建设白皮书 17 题,更应强调以原生的思维构建云、端一体化安全,推动安全与云计算的深度融 合,达到安全左移、持续监控与持续响应的目标。 1.3 云原生安全风险 云原生技术的应用带来了更多的安全风险,包括容器化基础设施风险、容器 编排平台的风险、云原生应用的风险等,这些风险对云网构成越来越严重的威胁。 例如企业云、5G 比如 dashboard、Docker 等组件也存在未授权访问的隐患,这些都是 k8s 集 群的重要系统组件,一旦被攻击成功,都是可以直接获得相应集群、节点或容器 的权限。 2.4.2 服务对外暴露攻击 攻击点 5 表示 Node 节点对外暴露的服务。由于管理员的疏忽或为了方便 管理而故意留的一些接口,导致内部服务的暴露,使得编排组件存在一个潜在的 攻击点。比如 Mysql 对外服务存0 码力 | 72 页 | 2.44 MB | 1 年前3
构建统一的云原生应用 可观测性数据平台VPC 子网 CIDR IP地址 NATGW ALB … 看云网更清晰 Simplify the growing complexity. 云原生应用的服务属性还有哪些 容器资源 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD DeepFlow的典型客户环境中,两个微服务通信涉及到的标签多达上百个 Namespace Simplify the growing complexity. AutoTagging:自动同步资源和服务属性 资源池 区域 可用区 云平台 租户 云资源 宿主机 云服务器 容器资源 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD 服务 app version env group owner stage commitId AutoTagging带来的问题 • 理想很丰满:观测数据无缝跳转 • 现实很骨感:上百个标签,后端资源消耗飙升 资源池 区域 可用区 云平台 租户 云资源 宿主机 云服务器 容器资源 容器集群 容器节点 命名空间 容器服务 Ingress Deployment StatefulSet ReplicaSet POD 服务 app version env group owner stage commitId0 码力 | 35 页 | 6.75 MB | 1 年前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊分布式云(Distributed Cloud)就是分布在不同地理位置的云,是公有云“进化”的最新形态 中心Region 传统公有云 分布式云 覆盖热点区域的 边缘数据中心 客户本地机房的边缘节点或者 边缘计算盒子 粗犷上云 低时延 高弹性 强合规 云边一体纳管 高级能力-去中心化云(服务角度) 中心Region 传统公有云 去中心云 亿美元,去中心化云计算市场约100亿美元。未来,10 年到20年,去中心化云计算、云储存市场有望实现10年 100倍的增长,达到 的规模。 高级能力-精益化运维-云原生AIOps • 传统云原生的运维,虽然依赖于度量, 但是通过监控、日志分析、跟踪链等发 现问题根因所在周期长,依靠人的经验 (并且人的经验无法数据化沉淀),而 得到问题根因后,只能通过人工去修复 或者管理 • 而大数据或者基于监督的AI技术的成熟、 运维领域模型趋于完整、云原生底座也 前的实现云原生 的落地。 • 企业应该结合自 己的组织、业务、 市场特点来规划 实施云原生。 攘外必先安内 项目 说明 全托管K8S 全托管K8S服务带来了发布和扩容效率的提升、更稳定的容器运行时、节点自愈能力,结合发 布自动化、资源管理自动化等能力可以实现应用与基础设施层的全面解耦 统一化ServiceMesh 将应用的分布式复杂性问题托付给Mesh层的数据面和控制面组件,实现全链路精准流量控制、0 码力 | 20 页 | 5.17 MB | 6 月前3
云原生微服务最佳实践WAF防护 限流熔断 风险预警 统一接入 流量调度 用户故事 • 来电 微服务治理全链路灰度最佳实践 • 斯凯奇 云原生网关最佳实践 来电 微服务治理全链路灰度最佳实践 app 充电宝设备节点 web 网关 服务注册发现 配置中心 HTTP HTTP HTTP HTTP HTTP 10% 90% web web web服务 Gray 基线版本 用户中心 Dubbo pos web MSE 云原生网关 认证鉴权服务 primweb web 订单中心 促销中心 商品中心 库存中心 渠道中心 用户中心 营销中心 会员中心 日志服务 安全 全链路监控 web服务 ES 云数据库 Rredis 版 RDS 云数据库 POLARDB 微服务中心 限流熔断 消息队列 AHAS ARMS SLS Web应⽤防⽕墙 分布式任务LTS MSE微服务引擎 Nacos 云原⽣⽹关 异地多活 管控 MSHA Nacos MSE微服务引擎 Nacos 云原⽣⽹关 Nacos 用户VPC 业务节点 业务节点 用户VPC 业务节点 业务节点 同Region,同AZ优先,Region内容灾; 跨Region异地容灾,通过网关打通跨region服务 云原⽣⽹关 云原⽣⽹关 Region1 Region2 AZ10 码力 | 20 页 | 6.76 MB | 1 年前3
中国移动磐舟DevSecOps平台云原生安全实践CODE DEPLOY OPERATE MONITOR RELEASE TEST BUILD DEV BUILD TIME OPS RUN TIME 上线即安全(安全左移)+ 自适应安全(持续监控&响应) SEC 安全需求 业务需求进来以后从五个维度对业务需求进行安全分析 威胁分析模型 威胁资源库 安全需求基线 威胁情报库 病例库 安全开发-安全需求分析 安全需求分析通过将安全策 提供合规检测手段 l 手机端:解决现行手机端用户便利 性的同时带来的安全问题 l 能力输出:针对自有安全能力可以 增值输出政企客户 安全管控-镜像扫描 在自动、增量、批量进行镜像上线前的扫描后,生产节点拉取安全镜像,运行后提供服务,但漏洞问题日新月异,有很多迭代 速度慢的业务应用随着时间的推移,一些新的漏洞也需及时发现整改。镜像扫描工具会自动、周期性对已上线业务应用的镜像进行 多维度深度扫描,及时发现新出现的安全问题,及时修正。 检测维度丰富,包括漏洞、软件许可、恶 意文件、敏感信息等 • 策略可深度自定义 • 自动生成评分,对安全进行评级 • 提供整体修复建议 安全运营-容器入侵检测 未 知 威 胁 监 控 风险事件列表 容器内行为 实时监控 产生 告警处置 人工安全标记 响应处置 内置风险策略 木马病毒上传 恶意命令执行 容器逃逸 其他风险策略 已 知 威 胁 监 控 进程 网络连接 系统调用 文件 配置0 码力 | 22 页 | 5.47 MB | 1 年前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 拓扑流量图:是不是按预期运行 分布式跟踪:哪些调用 故障或者拖慢了系统 监控与告警: 主动告诉我 问题发生了! 微服务部署后就像个黑盒子,如何发现问题并在 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 标识记录并还 原发生一次分 布式调用的完 整过程和细节 Logging 通过日志记录 执行过程、代 码调试、错误 异常微观信息 数据之间存在很多关联,通过0 码力 | 24 页 | 5.96 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊1、信息管理 MIS、ERP… 2、流程规范 BPM、EAI… 3、管理监控 BAM、BI 4、协作平台 OA、CRM 5、数据化运营 SEM、O2O 6、互联网平台 AI、IoT 数据化运营 大数据 智能化管控 互联网平台 跨企业合作 稳态IT:安全、稳定、性能 敏态IT:敏捷、弹性、灵活 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 场景 1 如果生产中一台Web应用服务器故障,恢复这台服务器需要 做哪些事情? 场景 2 如果应用负载升高/降低,如何及时按需扩展/收缩所用 如果业务系统要升级,如何平滑升级?万一升级失败是 否能够自动回滚?整个过程线上业务持续运行不中断。 传统稳态业务环境难以高效承载敏态应用 发现故障 (假死) 创建 新实例 配置 运行环境 部署当前 应用版本 添加 监控 配置 日志采集 测试确认 服务正常运行 实例 加入集群 恢复正常 工作量 成本 新一代架构(微服务)应用的对承载平台提出新要求 传统实践中,主要采用虚机/物理机+Sprin0 码力 | 42 页 | 11.17 MB | 6 月前3
共 22 条
- 1
- 2
- 3













