GPU Resource Management On JDOS
GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务0 码力 | 11 页 | 13.40 MB | 1 年前3A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes
• Training controllers – simplify and manage the deployment of training jobs • TFJob – custom resource to handle drivers and config • Tensorflow, PyTorch, MXNet, Chainer, and more • JupyterHub to create0 码力 | 21 页 | 68.69 MB | 1 年前3Manage Edge Nodes with KubeEdge and Case Study
autonomous – network connectivity • Only sync change data – network performance • Lightweight Kubelet – resource constrain edge node • Components • Edge Controller: representative of Edge nodes to talk to KubeMaster0 码力 | 11 页 | 1.42 MB | 1 年前3基于 KUBERNETES 的 容器器 + AI 平台
K8s - 单『控制集群』, 多『⽤用户集群』 • 镜像仓库 - 单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 『token0 码力 | 19 页 | 3.55 MB | 1 年前3Kubernetes Operator 实践 - MySQL容器化
applications on behalf of a Kubernetes user. operator 是特殊的 controller,用来管理复杂的分布式应用 ü custom resource definition(CRD) ü custom controller Operator 是什么 • Kubernetes 中一切都可视为资源 • 默认资源类型:如 Pod、Service、Volume0 码力 | 42 页 | 4.77 MB | 1 年前3MySQL高可用 - 多种方案
文件的内容如下(dbserver1 和 dbserver2 的配置一样): global { usage-count yes; } common { syncer { rate 10M; } } resource r0 { protocol C; startup { } disk { on-io-error0 码力 | 31 页 | 874.28 KB | 1 年前3清华大学 DeepSeek 从入门到精通
Elaboration(细化):深入探讨每个子任务的细节 • Connection(连接):建立子任务之间的逻辑关联 • Temporal Arrangement(时序安排):考虑任务的时 间维度 • Resource Allocation(资源分配):为每个子任务分配 适当的注意力资源 • Adaptation(适应):根据AI反馈动态调整任务结构 为了更有效地进行任务分解,可以采用SPECTRA模型(Systematic0 码力 | 103 页 | 5.40 MB | 8 月前3
共 7 条
- 1