GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供0 码力 | 11 页 | 13.40 MB | 1 年前3
Kubernetes全栈容器技术剖析有状态应用模型等能力; • 可纳管最新的Windows 1709系统,支持启动Windows Native容 器。 12 CCE支持GPU异构计算能力,帮助企业高效灵活应用深度学习服务 • 将旧的加速计算应用程序容器化,并部署 在较新的系统或者云环境中。 • 将特定的 GPU 资源分配给容器,以获得 更好的隔离效果和性能。 • 轻松地跨不同的环境共享应用程序、协同 工作和测试应用程序。 主流DL框架 Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 15 全球首发云容器实例服务CCI :更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 升50% 挑战 收益 传统虚机应用上线慢 业务扩容时间长 同业务压力下资 源利用率低 传统虚机应用交 互性能低 • 应用可以基于容器镜像一站式自动化“构建发布上线” • 应用快速上线、扩容、升级,秒级弹性扩缩容 • 基于容器更细粒度共享,提升资源利用率 16 支持多租隔离、租户内部各用户之间的权限隔离,基于组织提供 镜像的访问权限管理 安全保障 组织级别隔离及镜像粒度权限控制,共同保障镜像安全 权限控制简单便捷 提供界面,分配镜像的访问权限 对接DevCloud、GitHub、GitLab,一键式完成从代码下载到 镜像构建的完整流程,并支持对接CCE完成镜像部署0 码力 | 26 页 | 3.29 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites应用互联互通 应用形态复杂 • KPI: 峰值CPU利用率不低 于30% • 资源申请:按峰值30%进 行申请 • 峰值:1000TPS, 平时: 100TPS • 做自己擅长的事情,合作 方式开发 • 产品迭代:如何持续演进 和优化 • 外包管理:如何标准化降 低管理成本,提高质量 外包开发模式 资源利用率KPI 01 04 02 03 海尔集团业务转型 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工0 码力 | 33 页 | 4.41 MB | 1 年前3
云计算白皮书性能高效稳定。硬件芯片方面,通过屏蔽底层芯片差异实现资源池 化,从而满足对各种芯片的统一调度,这不仅包含对飞腾、鲲鹏、 龙芯、海光等芯片兼容,还包含不同指令集架构的 CPU,以及除 CPU 以外的专有芯片的兼容,如 GPU、DPU 等。软件应用方面,一云多 芯能够适配各种操作系统、虚拟机、容器数据库、中间件等,同时 还能够支撑虚拟化和云原生应用形态。性能调优方面,一云多芯可 以对不同芯片进行调优适配,提升平台整体性能。通过虚拟化产品 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在 数据处理方面,模型训练涉及 PB 级的存储数据集、中间结果和训练 好的模型参数等,且数据类型各异,也需要云计算平台提供的存储 样性算力资源池的能力,高性能计算云平台(HPC)、FPGA 云主机、 GPU 云主机、智算平台等多样性算力资源均通过云的方式统一接入, 极大地丰富了科研机构、企业、高校以及个人触达算力的便捷性与 普惠度。同时,东数西算、大模型训练等场景带来了多样性数据, 也催生了可高效满足不同业务诉求的多性化计算架构,如 ARM、 RISC-V 等通用计算技术路线,以及 GPU、DPU、NPU 等融合架构 计算平台,云计算使0 码力 | 47 页 | 1.22 MB | 1 年前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度 APIServer Scheduler Webhook 离线特征分析 调度策略中心 专家策略 调度规则 CR Update if need 1 应用互斥/亲和策略 4. …… Pod 1. CPU精细化分配 2. 应用AZ/Node打散 3. CPU敏感Pod打散 4. 节点CPU/Load感知 5. Pod近期最大cpu利用率感知• 节点负载均衡 规模化容器调度 Agent Pod Pod Pod Node 离线数据统计 应用预估峰 CPU值CR Agent Pod Pod Pod Node Agent0 码力 | 33 页 | 8.67 MB | 6 月前3
Serverless Kubernetes - KubeConpricing • 降低服务运行成本:无需再为闲置的计算资源付费(No Cost when Idle) • 灵活选择容器资源规格(Fine-grained cost model) • 提高资源利用率 CPU (vCPU) Memory (GB) 1 Min. 2 and Max. 8GB, in 1GB increments 2 Min. 4 and Max. 16GB, in0 码力 | 16 页 | 4.25 MB | 1 年前3
ALAUDA KUBERNETES 白皮书Google 开源的容器集群管理系统,构建在 Docker 技术之上,为容器化的应 用提供资源调度、部署运行、服务发现、扩容缩容等整一套功能,它最大的优点是可以显著 提升整个集群的总 CPU 利用率,所以成为众多容器调度框架中最受欢迎的调度模式。 Kubernetes 的安装、部署和使用非常复杂,需要考虑集群网络、存储系统等技术问题,因 此对于具备在集群中部署 Kubernetes0 码力 | 6 页 | 2.35 MB | 1 年前3
高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 降低运维管理成本 减少资源碎片 提高资源利用率 Kubernetes 的架构特点 中心化架构 所有组件通过 apisever 交互 随着规模增大存储系统成为瓶颈 etcd 存在性能问题 apiserver etcd K8s 各组件0 码力 | 60 页 | 8.02 MB | 1 年前3
QCon北京2017/企业软件互联网应用实践/基于 kubernetes 的企业级容器云reserved. 企业级容器云设计与思考 • 设计思路 从需求出发 需求驱动,勿求大而全,没有银弹 从用户的角度思考 简单,学习成本低,改变成本小 从技术的角度评估 从成本方面衡量 资源利用率,人力成本,投入产出比 从长远技术方向考虑 未来方向,新技术潮流,公司战略 高效,稳定,可扩展 9 2017 Lenovo Internal. All rights reserved. 企业级容器云设计与思考0 码力 | 30 页 | 1.80 MB | 1 年前3
可觀測性 (Observability)
在 Kubernetes Day2
Operation的考量與實踐中央管理面板必須包含強大的雲原 生環境監控功能 • Resource utilization tools • Kubernetes Day2 管理運營必須包 括幫助公司了解其成本、優化資源 利用率並最終降低總體成本的工具。 Click to edit Master title style 13 GitOps 痛苦x甜密 • 有能力記錄叢集環境上的一切變化 • 使用宣告式(Declarative)的文件格式0 码力 | 30 页 | 3.01 MB | 1 年前3
共 29 条
- 1
- 2
- 3













