GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供0 码力 | 11 页 | 13.40 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智Docker/rkt • kubelet • kube-proxy Kubernetes 基本概念 - Master Master 节点是 Kubernetes 环境中的管理节点,负责整个集群 的资源管理/分配,容器编排。一个 Master 节点包含如下组件: • kube-controller-manager • kube-apiserver • kube-scheduler Kubernetes Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 10G及以上的 networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google0 码力 | 77 页 | 14.48 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites混合云 监控日志 基础服务 镜像仓库 认证鉴权 资源管理 面向业务开发 CI/CD 微服务 应用商店 面向业务管理 弹性伸缩 API Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工0 码力 | 33 页 | 4.41 MB | 1 年前3
云计算白皮书等先进架构升级应用范式;二是数据架构现代化,以云原生为底座 优化数据摄取、数据存储、数据分析、数据消费、数据治理等能力, 云计算白皮书(2023 年) 16 充分挖掘数据价值等;三是技术架构现代化,从资源管理、运维保 障、研发测试、应用服务等方面构建通用的对上赋能的技术底座; 四是组织流程现代化,通过工作思维、管理方式、协作模式的革新, 从组织、人员层面适配现代化发展思路;五是用户体验现代化,重 性能高效稳定。硬件芯片方面,通过屏蔽底层芯片差异实现资源池 化,从而满足对各种芯片的统一调度,这不仅包含对飞腾、鲲鹏、 龙芯、海光等芯片兼容,还包含不同指令集架构的 CPU,以及除 CPU 以外的专有芯片的兼容,如 GPU、DPU 等。软件应用方面,一云多 芯能够适配各种操作系统、虚拟机、容器数据库、中间件等,同时 还能够支撑虚拟化和云原生应用形态。性能调优方面,一云多芯可 以对不同芯片进行调优适配,提升平台整体性能。通过虚拟化产品 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在 数据处理方面,模型训练涉及 PB 级的存储数据集、中间结果和训练 好的模型参数等,且数据类型各异,也需要云计算平台提供的存储0 码力 | 47 页 | 1.22 MB | 1 年前3
基于 KUBERNETES 的 容器器 + AI 平台project CI/CD workspace Pod … resources CPU quota MEM quota Storage quota Device (GPU) quota …. quota Service Config group … k8s objects Application template ⽤用户场景 - OPENSTACK TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理 • ⼯工作区隔离与共享 • 数据、模型、环境、应⽤用等 • 全⾯面⽀支持 AI ⼯工作流 • 探索开发 • 线上运⾏行行 关注并回复 kubecon18 P7 展台0 码力 | 19 页 | 3.55 MB | 1 年前3
QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践单盘 RAID • 服务器器使⽤用率⾼高 如何管理理集群 集群数增加,导致 Broker 扩张 • 如何调度它们 • 如何管理理它们 服务器器如何管理理 Kubernetes 集群资源管理理和调度 容器器技术提供资源隔离 应⽤用程序管理理 Kafka on Kubernetes 设计 Kafka 容器器 • 内存、CPU、⽹网络和存储 调度 Kafka 容器器 内存 CPU0 码力 | 34 页 | 2.64 MB | 1 年前3
QCon北京2017/企业软件互联网应用实践/基于 kubernetes 的企业级容器云reserved. Showcase • 日志查看:实时查看应用日志 27 2017 Lenovo Internal. All rights reserved. Showcase • 资源管理:项目级别的资源控制 28 2017 Lenovo Internal. All rights reserved. 那些坑,那些事 • 底层平台的那些坑 – K8S Deployment ID出现重复,导致部署后不更新应用0 码力 | 30 页 | 1.80 MB | 1 年前3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge当前的边缘计算领域主要⾯面临以下五个挑战:� ➔ 协同:AI/安全等业务在云和边的智能协同、弹性迁移。� ➔ ⽹网络:云和边缘之间的⽹网络可靠性和带宽限制。� ➔ 管理理:边缘节点的资源管理理与边缘应⽤用⽣生命周期管理理。� ➔ 扩展:⾼高度分布和⼤大规模的可扩展性。� ➔ 异构:边缘侧异构AI硬件接⼊入。� Why KubeEdge� KubeEdge通过更更优的架构和0 码力 | 20 页 | 2.08 MB | 1 年前3
DaoCloud Enterprise 5.0
产品介绍过程,提供业务应用从 “开发 -> 测试 -> 部署 -> 运维”的全生命周期管理,能有效帮助企业实现数字 化转型,提升企业的 IT 交付能力和竞争力。 以容器管理为底座,借助全局管理实现层级资源管理,以 CI/CD 流水线和 GitOps 流程增删改查云原生应用,实现渐进式交付。 多云编排 企业从最初简单的只要上云就好,到如今开始选择到底上哪个云,或者上哪些 云,从而构建专属于企业自身的多云环境。0 码力 | 18 页 | 1.32 MB | 1 年前3
第1930期:Kubernetes基础介绍字空间满足需要。 28 www.h3c.com Confidential 秘密 28 28 K8s基本概念和术语介绍(资源限制) 资源限制: Kubernetes通过cgroups提供容器资源管理的功能,可以限制每个容器的CPU和内存使用,比如对于刚才创建的 deployment,可以通过下面的命令限制nginx容器最多只用50%的CPU和128MB的内存: $ kubectl set resources0 码力 | 49 页 | 4.11 MB | 1 年前3
共 26 条
- 1
- 2
- 3













