高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践腾讯智能运维(Metis)项目实践 张戎 机器学习高级研究员 张戎 腾讯云 云服务平台部 机器学习高级研究员 • 2015年毕业于新加坡国立大学数学专业,获博士学位; • 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 指数移动平均算法 • 二次指数移动平均算法 • 三次指数移动平均算法 • 奇异值分解算法 • 自回归算法 • 深度学习算法 时间序列的分类特征 • 熵特征 • 值分布特征 • 小波分析特征 单维时间序列分析 有监督异常检测算法 (RF,GBDT,XGBoost,深度学习) 数据层 数据存储 数据提取 统计算法 输出疑似异常 无监督算法 输出疑似异常 有监督算法 特征工程0 码力 | 28 页 | 1.88 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏开发的模式,实现所有运维任 务自动化、工具化、可视化。 数据驱动运维:基于大数据 的接入、存储、分析技术,对运 维数据进行全面挖掘和分析,实 现数据驱动自动化运维。 机器驱动运维:基于智能算法 的机器自我学习,训练机器智能运 维模型,实现无人值守和智能的运 维与运营。 数据化 2015--2017 智能化 2017—现在 蓝鲸目前在腾讯应用情况及发展方向 4个转型的绊脚石 游戏, 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 出来。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 重启 测试验证 故障机回 收 故障 替换 业务配置 文件修改 对外开放 选择发布 范围 备份业务 程序&数 据 屏蔽监控 告警 关闭游戏 入口 更新程序 包 更新数据 库 启动游戏 进程 版本 发布 停游戏进 程 测试验证 对外开放 蓝鲸作业平台 蓝鲸进化第2步:场景与原子的分离 API Gateway 服务组件A 服务组件B 服务组件C 服务组件D0 码力 | 26 页 | 8.25 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台Jenkins 、 Tekton 、 Argo 等 搭建流程串接胶水平台 建设成本高 500-2000 万之间 使用和学习门槛高;随业务发展扩展性差 局限性大,内部推广难度极高,做完后维 护成本高价值难被证明 低采购成本、低实施成本, 内置模板库和最佳实践;高扩展性、技术先进性强 ,可灵活广泛接入现有工具链和业务场景 基于代码管理的 DevOps 方 案 Gitee Zadig 产品特性 Zadig 核心特性 面向开发者的云原生环境 灵活易用的高并发工作流 高效协同的测试管理 云原生 IDE 插件( VS CODE) 客观精准的效能洞察 强大免运维的模版库 • 自动生成面向开发、测试、运维角 色的工作流 • 多个微服务并行构建、部署、测 试,代码验证效率 UP • 自定义工作流,灵活编排发布、自 主开发和对接企业内部流程和系统 扫码查看飞书主干开发最佳实践 高效协同的测试管理 • 一套 YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范,开发自主使用 • 跨多项目复用模板 扫码查看易快报案例 强大免运维的模板库 • 系统纬度:集群、项目、服务、环境、工作流 • 项目纬度:构建、测试、部署, DevOps 指标 • 迭代纬度:需求到发布效率、质量分析 • 效能度量:耗时分析、通过率统计、趋势分析 客观精准的效能洞察0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台流程平台 围绕 Jenkins 、Tekton、Argo 等搭建流程串接胶水平台 建设成本高 500-2000万之间 使用和学习门槛高;随业务发展扩展性差 局限性大,内部推广难度极高,做完后维 护成本高价值难被证明 低采购成本、低实施成本, 内置模板库和最佳实践;高扩展性、技术先进性强, 可灵活广泛接入现有工具链和业务场景 基于代码管理的 DevOps 方案 Gitee 平台 GitLab Zadig 产品特性 Zadig 核心特性 面向开发者的云原生环境 灵活易用的高并发工作流 高效协同的测试管理 云原生 IDE 插件(VS CODE) 客观精准的效能洞察 强大免运维的模版库 • 自动生成面向开发、测试、运维角 色的工作流 • 多个微服务并行构建、部署、测试, 代码验证效率 UP • 自定义工作流,灵活编排发布、自 主开发和对接企业内部流程和系统 扫码查看飞书主干开发最佳实践 高效协同的测试管理 • 一套YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范,开发自主使用 • 跨多项目复用模板 扫码查看易快报案例 强大免运维的模板库 • 系统纬度:集群、项目、服务、环境、工作流 • 项目纬度:构建、测试、部署,DevOps 指标 • 迭代纬度:需求到发布效率、质量分析 • 效能度量:耗时分析、通过率统计、趋势分析 客观精准的效能洞察0 码力 | 59 页 | 23.57 MB | 1 年前3
CloudExplorer 3.0 部署运维手册v1.2.............................25 8.2 数据库备份............................................................................................................25 8.3 数据库恢复..................................... docker-compose 的方式维护整体平台的运行与服务之间的 依赖关系。 2.1.1 依赖组件 CloudExplorer 云管平台依赖于如下第三方开源中间件及数据库服务: 名称 描述 MySQL 提供数据库服务,可配置使用外部数据库服务,例:RDS Ansible CloudExplorer 基于 Ansible 实现自动化操作功能 Prometheus CloudExplorer 基于 Prometheus 服务 Keycloak 提供 IDP 服务,用户统一认证中心,可以配置 SSO,或者对接 LDAP RabbitMQ 消息队列服务 杭州飞致云信息科技有限公司 5 InfluxDB 时序数据库服务,监控数据统计 2.1.2 基础模块 CloudExplorer 云管平台内置了如下核心基础模块: 模块名称 描述 IdP / SSO(系统中服务) IdP 和 SSO 单点登录 Gateway(gateway)0 码力 | 29 页 | 0 Bytes | 1 年前3
Zadig 产品使用手册和企业创新力 生态开放:广泛开放系统 模块和 OpenAPI ,链接 一切流程、服务、工具和 上下游伙伴 安全简单自主可控:私有化 部署,现有服务 0 迁移成本 、体验丝滑接入容易、学习 使用门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主, Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 方案对比: 现存方案 典型代表 对多云跨地域支持不够 实施负担较重难以推广 面向多云友好,厂商中立,全球多地跨云跨域 安全可靠自动化部署 云原生 CI/CD 工具 Tekton Argo 使用门槛高、学习成本高 需要额外建设全流程能力 接入和使用都极其简单,内置模板库 和最佳实践,基于平台工程打造,可以轻松连 接一切工具链 企业自建 DevOps 流程平台 围绕 Jenkins 或 CI/CD 工具 搭建流程串接胶水平台 产研全流程拉通需求到上线所需的代码、服务、配置和数据的一致性交付 Jira 飞书 项管 其他 自测 环境 Argo K8s JFrog YAML 产品 开 发 测 试 运维 产研运一体化 解决方案 免运维模板库 效能洞察 云原生 IDE 插 件 交付中心 发布中心 测试中心 高并发工作流 云原生环境 对接需求管理 测试管理 Spinnaker Jenkins Rancher JMeter0 码力 | 52 页 | 22.95 MB | 1 年前3
Zadig 产品使用手册和企业创新力 生态开放:广泛开放系统 模块和 OpenAPI ,链接 一切流程、服务、工具和 上下游伙伴 安全简单自主可控:私有化部 署,现有服务 0 迁移成本、 体验丝滑接入容易、学习使用 门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主,Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 方案对比: 现存方案 典型代表 方案特点分析 对多云跨地域支持不够 实施负担较重难以推广 面向多云友好,厂商中立,全球多地跨云跨域 安全可靠自动化部署 云原生 CI/CD 工具 Tekton Argo 使用门槛高、学习成本高 需要额外建设全流程能力 接入和使用都极其简单,内置模板库 和最佳实践,基于平台工程打造,可以轻松连 接一切工具链 企业自建 DevOps 流程平台 围绕 Jenkins 或 CI/CD 工具搭 建流程串接胶水平台 、配置和数据的一致性交付 Jira 飞书 项管 其他 自测 环境 Argo K8s JFrog YAML 产 品 开 发 测 试 运 维 产研运一体化 解决方案 免运维模板库 效能洞察 云原生 IDE 插件 交付中心 发布中心 测试中心 高并发工作流 云原生环境 对接需求管理 测试管理 Spinnaker Jenkins Rancher JMeter0 码力 | 52 页 | 16.27 MB | 1 年前3
CloudExplorer 3.0 管理员手册v1.2久性,以及稳定的低时延性能。您可以对云硬盘做格式化、创建文件系统 等操作,并对数据做持久化存储 安全组 安全组是一种虚拟防火墙,具备有状态的数据包过滤功能,用于设置云服 务器、负载均衡、云数据库等实例的网络访问控制,控制实例级别的出入 流量,是重要的网络安全隔离手段。可以通过配置安全组规则,允许或禁 止安全组内的实例的出流量和入流量。 弹性 IP 是私有云、公有云中租户能够申请获取保留专用的公网 的可扩展和高可用,公有云厂商会保证这一点,只有出费用,多少都能存。 PaaS 是指云服务中的平台即服务,这个概念的业界定义和理解不是很统一,并 且比较混淆。我们简化一些,指公有云中的 RDS 等中间件、数据库在线服 务,以及容器云。 VLAN Virtual Local Area Network, 虚拟局域网, 是建立在物理网络基础上的一 种逻辑子网,用于隔离多个主机组之前的网络访问。物理位置不同的多个 IT 变更请 求管理工具,用于 IT 部门面向应用业务开发测试、业务部门以及 IT 部门内 部成员提交 IT 服务请求,流程管理、流程审批,派发,沟通反馈操作结果 输出,记录变更,记录管理知识库。通常 ITIL 以 ITSM 工具进行落地。比 较 常 见 的 ITSM 平 台 有 神 州 数 码 ServiceJet 、 宇 信 易 诚 、 卓 豪 ManageEngine、优云等。 JumpServer0 码力 | 308 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 用户手册v1.2................................................................................... 23 3.3 申请中间件数据库集群.........................................................................................26 3.4 克隆虚拟机 负载均衡 VS 实例................................................................................ 75 8 云数据库在线申请部署及操作变更回收..........................................................................77 8.1 新建公有云 提供高可用性和持久性,以及稳定的低时延性能。您可以对云硬 盘做格式化、创建文件系统等操作,并对数据做持久化存储 安全组 安全组是一种虚拟防火墙,具备有状态的数据包过滤功能,用于 设置云服务器、负载均衡、云数据库等实例的网络访问控制,控 制实例级别的出入流量,是重要的网络安全隔离手段。可以通过 配置安全组规则,允许或禁止安全组内的实例的出流量和入流 量。 弹性 IP 是私有云、公有云中租户能够申请获取保留专用的公网0 码力 | 102 页 | 0 Bytes | 1 年前3
Red Hat OpenShift GitOps 1.13 基础架构节点上的 GitOps 工作负载GITOPS CONTROL PLANE 工作 工作负载 负载 5 1.3. 其他资源 如需有关污点和容限的更多信息,请参阅使用节点污点控制 pod 放置。 有关基础架构机器集的更多信息,请参阅 创建基础架构机器集。 Red Hat OpenShift GitOps 1.13 基 基础 础架 架构节 构节点上的 点上的 GitOps 工作 工作负载 负载 60 码力 | 10 页 | 122.25 KB | 1 年前3
共 17 条
- 1
- 2













