GPU资源管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

GPU Resource Management On JDOS

GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器，不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务常规的容器服务，使用 gpu 的 zone ，自行设定相应的镜像即可，有完善的周边服务训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job 调度（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务） – 选择存储来源：对接了内部的存储 – 填写代码地址，执行的命令等 – 可以选择是否监控训练，提供

0 码力 | 11 页 | 13.40 MB | 1 年前
3
基于 KUBERNETES 的容器器 + AI 平台

  project CI/CD workspace Pod … resources CPU quota MEM quota Storage quota Device (GPU) quota …. quota Service Config group … k8s objects Application template ⽤用户场景 - OPENSTACK TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理 • ⼯工作区隔离与共享 • 数据、模型、环境、应⽤用等 • 全⾯面⽀支持 AI ⼯工作流 • 探索开发 • 线上运⾏行行关注并回复 kubecon18 P7 展台

0 码力 | 19 页 | 3.55 MB | 1 年前
3
A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes

deployment, scaling, and management of containerized applications • Declarative • Can be a mix of GPU or CPU nodes • Massive Scale • OpenAI dedicates up to 10k cores for a single experiment • Autoscaling

0 码力 | 21 页 | 68.69 MB | 1 年前
3

共 3 条前往

页

GPU JDOS KUBERNETES KubeCon China ML Lifecycle

分类

语言

格式

GPU Resource Management On JDOS

基于 KUBERNETES 的容器器 + AI 平台

A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes

分类

语言

格式

GPU Resource Management On JDOS

基于 KUBERNETES 的 容器器 + AI 平台

A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes

基于 KUBERNETES 的容器器 + AI 平台