高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • 调度 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) (自编码器) 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 • 方差,偏度,峰度 • 同比,环比,周期性 • 自相关系数,变异系数 时间序列的拟合特征 • 移动平均算法 • 带权重的移动平均算法 • 指数移动平均算法 •0 码力 | 28 页 | 1.88 MB | 1 年前3
CloudExplorer 3.0 管理员手册v1.2.................................103 6.3.1 创建单级标签进行分组分类查看操作、统计分析..................................... 103 6.3.2 创建多级标签进行分级分组分类查看操作、统计分析............................. 105 6.3.3 给虚拟机批量打标签分组分类......... ...........................238 8.4.2 开发测试环境多项目共用多个 VLAN、多个公有云 VPC 子网............... 238 9 IT 投入使用分析................................................................................................... 查看到期资源并操作回收...........................................................................276 10.2.4 持续分析优化...............................................................................................2760 码力 | 308 页 | 0 Bytes | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7FIT2CLOUD 的产品与解决方案涵盖软件测试、云原生运行时、多云管理、安全合规、 数据分析可视化、内容管理,其旗舰产品包括:MeterSphere 开源持续测试平台、 KubeOperator 开源容器平台、CloudExplorer 多云管理平台、JumpServer 开源堡垒机、 DataEase 开源数据可视化分析平台、Halo 开源博客/CMS 系统。FIT2CLOUD 旗下的开 源项目在 .......7 1.3.1 大幅减少获取应用运行环境资源排期及总体等待时间................................. 7 1.3.2 大幅减少资源部署人工操作工作量及操作风险,解放人力..........................8 1.3.3 简化流程,降低协作沟通成本,缩短交付时间...................................... ..12 1.5.3 实现运维工具深度整合、联动自动化........................................................ 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化.............................................12 1.5.5 建立数据中心 IT 体系演进框架支持迭代扩展建设.....0 码力 | 60 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 用户手册v1.2Nutanix、SmartX 1.5 整体界面说明 服务门户整体设计为模块化设计,有多个模块门户组成,包括 Dashboard 门户、虚拟 机服务、负载均衡服务、数据库服务、对象存储服务、账单中心、运营分析、工单中心等模 块。申请和管理资源需要到对应的资源的服务管理门户。 如需申请和管理虚拟机、磁盘、安全组、弹性 IP 资源需要到【虚拟机服务】模块门户。 如需申请和管理公有云负载均衡、F5 【数据库服务】模块【申请】页面快捷入口 【对象存储服务】模块【概览】页面快捷入口 【工单中心】模块【提交工单】页面快捷入口 【账单中心】模块的【费用分析】页面快捷入口 【运营分析】模块的【资源分析】页面快捷入口 点击模块的快捷入口后,会显示被授权的工作空间列表,如图 2-3 所示,在列表中选 择要进入的【工作空间】后,即可进入到模块门户和指定工作空间下,之后在工作空间下就 在【账单汇总】面板中,如图 2-6 所示,能够看到被授权的工作空间下的资源当月当 前的账单费用支出总和以及历史月度账单费用支出情况,从而了解资源使用的成本费用的支 出情况,如果费用支出较大,即可着手进行分析优化以减少不必要的支出。 图 2-6 账单汇总面板 2.4 我的待办面板 在【我的待办事项】面板中,如图 2-7 所示,可以看到当前的待办数量、通知数量, 选择后打开【待办】页面,选择【待办0 码力 | 102 页 | 0 Bytes | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台低质量 / 低效率 / 高成 本: 人淹没在系统的海洋里,无数平台手工切换 高人效 / 高质量 / 高效率 / 低成 本: 人在系统之外 / 上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等 Infra 的事情。 1 0 0 % 开 源 基 本 能 力 开 源 1.5 个月核心重构 65% 功能实现开源 支撑开源社区开发者环境 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps 方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保 障,建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地 / 子环境免打扰,独立完成验证工作 自助验证更高效:自动化工作流0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台平台 高人效 低人效 低人效/低质量/低效率/高成本: 人淹没在系统的海洋里,无数平台手工切换 高人效/高质量/高效率/低成本: 人在系统之外/上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等Infra的事情。 1 0 0 % 开 源 基 本 能 力 开 源 1.5 个月核心重构 65% 功能实现开源 支撑开源社区开发者环境 Zadig 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保障, 建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地/子环境免打扰,独立完成验证工作 自助验证更高0 码力 | 59 页 | 23.57 MB | 1 年前3
CloudExplorer 3.0 部署运维手册v1.2........................................................................................ 28 9.6 运行分析报告报错............................................................................................... 工单中心(ticket-center) 工单系统量计费 虚拟机服务(vm-service) 虚机自服务及运营 容器云集群服务(container-service) 容器云集群服务 运营分析(operation-analytics) IT 容量管理、趋势分析、健康分析、优化 大屏(screen-display) 可视化大屏,实时展示云管平台各项关键数据 公有云网络管理(network-service) 公有云网络管理 杭州飞致云信息科技有限公司 对象存储服务(oss-service) 对象存储服务,支持常用私有云和公有云对象存储 漏洞扫描(scan) 绿盟漏洞扫描对接和漏洞分析 堡垒机(jumpserver) 用于 Jumpserver 堡垒机对接 AWS 费用管理(aws-billing-data) AWS 费用可视化分析、优化及分摊 物理机管理(physical-machine) 物理机自动发现及自助申请 负载均衡(loadbalancer-service)0 码力 | 29 页 | 0 Bytes | 1 年前3
Zadig 产品使用手册使用门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主, Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 方案对比: 现存方案 典型代表 方案特点分析 Zadig 优势 传统 Jenkins 方案 GitLab + Jenkins + 脚本化 运行效率低,管理维护成本高 方案局限性大,安全性风险高 无法支持敏捷交付模式 支持从需求到发布全流程敏捷交付。尤其面向 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付 付效率低下、占据大量研发时间 、研发利用率极低 环境不透明、测试效率低下、测 试有效性低、大量手工、价值难 以体现 上下游烟囱式、协作效率低、团 队花大量时间在碎片化沟通和流 程制定上、各方能力受限、无法 快速响应市场需求 层级越高、对产研状态越模糊 管理低效、延误战机 少量配置、快速拉起环境、稳定 工作流更新环境进行集成验证 包括步骤:构建 -> 部署 sit 环境 -> 接口测试 -> IM 通知 Sprint 发布 需求开发 变更发布 产品规划 测试验证 自动化测试——测试结果分析 Sprint 发布 需求开发 变更发布 产品规划 测试验证 uat 发布——执行 uat 工作流做预发布验证 步骤包含:质量门禁 -> 构建 ->nacos 变更 -> 部署 uat0 码力 | 52 页 | 22.95 MB | 1 年前3
Zadig 产品使用手册门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主,Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 方案对比: 现存方案 典型代表 方案特点分析 Zadig 优势 传统 Jenkins 方案 GitLab + Jenkins + 脚本化 运行效率低,管理维护成本高 方案局限性大,安全性风险高 无法支持敏捷交付模式 支持从需求到发布全流程敏捷交付。尤其面向 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付 付效率低下、占据大量研发时间、 研发利用率极低 环境不透明、测试效率低下、测 试有效性低、大量手工、价值难 以体现 上下游烟囱式、协作效率低、团 队花大量时间在碎片化沟通和流 程制定上、各方能力受限、无法 快速响应市场需求 层级越高、对产研状态越模糊 管理低效、延误战机 少量配置、快速拉起环境、稳定 工作流更新环境进行集成验证 包括步骤:构建 -> 部署 sit 环境 -> 接口测试 -> IM 通知 Sprint 发布 需求开发 变更发布 产品规划 测试验证 自动化测试——测试结果分析 Sprint 发布 需求开发 变更发布 产品规划 测试验证 uat 发布——执行 uat 工作流做预发布验证 步骤包含:质量门禁->构建->nacos 变更->部署 uat 环境->0 码力 | 52 页 | 16.27 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission HPAPlus HPAPlus • 一个HPA一个goroutine • 支持 metric/custom.nerics/external.metrics • HPA对象级别同步时间 • HPA对象级别抑制时间 • requests 和 limits 两种资源计算方式 • CronHPA • HPA对象Enable 和 Disable • 动态调整 minRepliacs VPAPlus VPAPlus • 动态调整Container Cgroup • requets 和 limit 比例设置 • Resource Range设置 • CheckPoint对象timeout时间 • Pod对象更新时间 ` • 资源合法性校验 THANKS 关注云加社区公众号0 码力 | 10 页 | 1.39 MB | 1 年前3
共 17 条
- 1
- 2













