GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务0 码力 | 11 页 | 13.40 MB | 1 年前3
Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Master API Server Pod Master API Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables 增加阻断规则 FORWARD_IN_ZONES_SOURCE FORWARD_OUT_ZONES 容器网络不通 异常 VS 异常检测 ? 云原生操作系统0 码力 | 31 页 | 9.57 MB | 1 年前3
Kubernetes开源书 - 周立12-Master与Node的通信 13-Node 14-Pod 15-Replica Set 16-Deployment 17-StatefulSet 18-Daemon Set 19-配置最佳实践 20-管理容器的计算资源 21-Kubernetes资源分配 22-将Pod分配到Node 23-容忍与污点 24-Secret 25-Pod优先级和抢占 26-Service 27-Ingress 上,并结合了社区中最佳的创意和实践。 为什么使⽤容器 寻找你为啥要使⽤容器 的原因? 01-什么是Kubernetes 4 部署应⽤程序的旧⽅法是使⽤操作系统的软件包管理器在主机上安装应⽤程序。这种⽅式,存在可执⾏⽂件、配置、库 和⽣命周期与操作系统相互纠缠的缺点。⼈们可构建不可变的虚拟机映像,从⽽实现可预测的升级和回滚,但VM是重 量级、不可移植的。 新⽅法是部署容器,容器基于操作系统级别的虚拟化⽽不是硬件虚拟 Distributing secrets Checking application health Replicating application instances Using Horizontal Pod Autoscaling Naming and discovering Balancing loads Rolling updates Monitoring resources Accessing0 码力 | 135 页 | 21.02 MB | 1 年前3
k8s操作手册 2.3本文档,则说明接受以上2个条 款。 作者:李茂福 更新日期:2023-12-29 ★第0章、K8S集群搭建准备工作 相关单词原义: docker 码头工人 pod 集装箱 kubernetes 舵手,领航员 helm 舵轮,驾驶盘 chart 图表,海图 ①k8s对系统要求 linux内核在3.10及以上,服务器规格2核cpu,2G内存及以上,可以装在虚拟机 里,也可以装在实体机上 ②规划主机名及ip k8s的服务器使用固定ip地址,配置主机名,要求能解析相应的主机名(master 结点)到对应的ip地址,可以使用内网集群的dns服务器或写入/etc/hosts文件 里。如: 主机名 ip地址 k8s-master1.cof-lee k8s-node01.cof-lee.com 10.99.1.61 k8s-node02.cof-lee.com 10.99.1.62 规划Pod网络: 10.244.0.0/16 规划Service网络: 10.7.0.0/16 # pod网络和service网络都要求为16位的地址块,且不能与环境中其他网络地址 段冲突 # hostnamectl set-hostname k8s-master10 码力 | 126 页 | 4.33 MB | 1 年前3
第1930期:Kubernetes基础介绍机制。 水平扩展:通过简单明了实现水平扩展,基于CPU等资源负载率的自动水平扩展。 服务发现和负载均衡:实现内部负载均衡可以实现服务访问负载。 自动发布和回滚:可以自动实现版本的发布和回滚。 秘钥和配置管理:对于密码等信息,专门提供了Secert对象为其解耦。 存储编排:支持多种不同类型的存储,包括本地存储、云存储、网络存储等。 批量处理执行:除服务型应用,还支持批处理作业CI(持续集成),如有需要,一样可以实现容器故障后修复。 点控制器及服务账号 和令牌控制器。负责维护集群的状态,比如故障检测、自动扩展、滚动更新等。 Scheduler调度器(kube-scheduler):负责资源调度(Pod调度)的进程,相当于“调度室”。按照预定的调度策略 将Pod调度到相应的机器上 etcd:集群的数据存储,他存储着集群中所有的资源对象。数据存储采用的是键值对存储。保存了整个集群的状态。 11 www.h3c.com Confidential Confidential 秘密 11 11 K8s基本概念和术语介绍(Node) 工作节点(Node/Worker): Node是集群的工作节点,运行具体的Pod,当某个Node宕机时,其工作负载会被Master自动转移到其他Node节点上。 默认情况下kubelet会向Master注册自己。一旦Node被纳入集群管理,kubelet进程就会定时向Master节点汇报自身的 情况,比如操作系统等信0 码力 | 49 页 | 4.11 MB | 1 年前3
Kubernetes + OAM 让开发者更简单Kubernetes 对于应用开发复杂在哪里 1. 关注点不同 业务研发 2. 语义与抽象程度不同 业务运维 3. 交互与使用习惯不同 业务研发、运维 YAML 文件 图形化界面 命令行工具 IaC 配置语言 扩容策略 • 当 RT 上升 10% 时,自动扩容 100 个实例 发布策略 • 当金丝雀实例通过 99% 的测试时,按 每小时切 10% 流量 的节奏进行发布 YAML 文件 YAML 代码、应用、CICD 流水线 容器 Pod Controller 调度 Node Sidecar CNI CSI 研发都要做 Kubernetes 专家? Kubernetes 构建 Platform on Kubernetes 控制器 各种各样的控制器(Controller) 容器 虚拟机 负载均衡 数据库 安全服务 网络 存储 Pod Deployment Service Service Node Custom Resource 一组容器 一组 Pod 副本 Pod 的访问入口 节点 自定义对象 声明式 API 对象 基础设施层能力 业务运维 平台工程师 业务研发 扩容策略 发布策略 分批策略 访问控制 流量配置 应用管理平台 (Openshift、Cloudfoundry、阿里内部、腾讯内部 …) 应用 CI/CD 流水线 K8s PaaS K8s 但是,K8s0 码力 | 22 页 | 10.58 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智用来将需要容器化的应用程序及其环境进行打包后存储的镜像。 • 通常会有一个 Image 管理仓库来存储 Image。 • 同一个 Image 会有版本记录。 • 只包含软件环境的配置 • 硬件配置需要运行时去指定 OCI (Open Container Initiative) • From Linux Foundation • 旨在为 Container 格式和运行时创建开放行业标准。 管理工具 (User Space) 如何通过 Docker 启动 Container 并与硬件绑定 官方文档参考: https://docs.docker.com/engine/admin/resource_constraints/ Kubernetes 架构 Kubernetes 基本概念 - Node 一个 Node 是一个 Kubernetes 众多集群中的一个工作节点,一 融合与架构解析 Kubernetes 基本概念 - Pod • Pod 是 Kubernetes 中最小 的资源 • 一个 Pod 包含一个或多个 Container • Pod 内的 Containers 可以 共享网络和存储 Kubernetes 基本概念 - Service • Service 是一组 Pod 协同工作。 • 有时也被称为微服务。 • 可以给0 码力 | 77 页 | 14.48 MB | 1 年前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验• 数十个集群 • 数十万的节点 • 单集群规模 10,000 节点 • • 数万个应用 • 超百万的容器 Online Service AI Job FaaS Middleware Resource management, Scheduling, Automated operation, etc. Workloads Containers Cluster Management IDC 传统运维体系的效率问题 - 应用启动流程复杂 - 决策链路较长 - 状态一致性风险 容器平台 监控 VIP 服务注册 配置中心 运维平台 观察者 异常消费 基础设施 异常来源• 统一容器与应用实例的生命周期 • 下沉应用的冗余度信息 容器即应用 运维平台 监控 VIP 服务注册 配置中心 启动完成 应用实例的生命周期 API Server Eviction Controller Kubernetes config binary Docker K8s Pod main Container logtail sshd monitor 业务 ssh 日志 监控 通过 Dockerfile 打包应用 镜像,一次定义多次运行 通过镜像提供的组装机制 打包应用镜像,包含业务 及运维基础设施进程 更进一步组合多个容器 为一个 Pod,Pod 一次 定义多次运行不可变基础设施 • 应用与运维基础设施容器分离0 码力 | 33 页 | 8.67 MB | 6 月前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅自研容器云平台 腾讯大数据云 通用云平台 目录 • 架构简介 • 企业级容器云解决方案 • Next 企业级容器云架构 产品功能 企业级容器云解决方案 企业级 场景 易用 • 全组件自动化部署、统一配置管理、多策略灰度升级 • 提供可视化、自动化的运维能力,降低使用者的人力成本和学习成本 可靠 • 所有组件无单点; • 平台本身支持热升级; • 组件自身HA机制,如docker; • 多地域多可用区的容灾设计 集群核心数据的备份和恢复 ① Etcd ② 核心数据库 • 云盘机制保护应用数据 • 举例:1.4升级1.9版本 • Pod Hash发生变化 • Container名称发生变化,点分隔改为了下划线分隔 • 容器标签发生变化 pause容器的标签io.kubernetes.container.name=POD改为 io.kubernetes.docker.type=podsandbox io.kubernetes kubernetes.container.restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化,新增Pod层级 平台容灾 应用容灾 数据容灾 企业内部各个集群灰度运营。 可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk0 码力 | 28 页 | 3.92 MB | 1 年前3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge& KubeEdge� 华为公有云智能边缘平台IEF以开源的KubeEdge为内核打造� KubeEdge基础架构� KubeEdge设备管理理——Kubernetes Custom Resource Definitions (CRD)� 应⽤用场景:智能家居设备云端托管� KubeEdge设备管理理——从云端同步期望设备状态到边缘� 应⽤用场景:智能家居设备远程控制� KubeE Server� KubeEdge Cloud� KubeEdge Edge� Wait for pod update� Send added pod to edge� Kubectl create� Create result� Send pod update to cloud� Update pod� Kubectl get� Get result� 应⽤用场景:智能家居应⽤用⽣生命周期管理理� 云端和边缘端的开源实现。� ➔ 使⽤用 kubectl 从云端向边缘节点部署应⽤用。� ➔ 使⽤用 kubectl 从云端对边缘节点的应⽤用进⾏行行配置管理理和 密钥管理理。� ➔ 云和边缘节点之间的双向和多路路⽹网络通信。� ➔ Kubernetes Pod 和 Node 状态通过云端 kubectl 查询, 从边缘端收集/报告数据。� ➔ 边缘节点在脱机时⾃自动恢复,并重新连接云端。�0 码力 | 20 页 | 2.08 MB | 1 年前3
共 70 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













