GPU Resource Management On JDOSManagement On JDOS 梁永清 liangyongqing1@jd.com ## 提供的服务 ## Experiment ## Training 1. 用于实验的 GPU 容器 2. 基于 Kubeflow 的机器学习训练服务 3. 模型管理和模型 Serving 服务 ## Serving 均基于容器,不对业务方直接提供 GPU 物理机 ## GPU 实验 JDOS 常规的容器服务, kubeflow 的分布式训练方案 - 界面化操作,用户提供代码地址和执行命令即可 - 系统内建支持安装 pip 依赖 - 自制存储插件支持分布式文件系统存储用户数据 - 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 - Job 调度(部门 quota 限制 + 优先级) public/tensorflow:1.7.0-devel-gpu-py3-v1 分布式训练 单Worker使用GPU数量 $ ^{*} $ 数据来源 储宝 UUID $ ^{*} $ jdos-testitest-wdl (jdos-testitest-wdl) 训练素材目录 $ ^{*} $ wdl GIT地址 $ ^{*} $ git@ ression.git 执行命令 $ ^{*}0 码力 | 11 页 | 13.40 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全流量监控 配置管理 IDC应用 Jone应用 自定义统计报表 决策树 事件管理 远程工具 网络拓扑 系统监控 问题管理 国际化 监控大屏 网络巡检 深度学习 Jdos应用 库房应用 数据库操作 发布管理 变更管理 可视化 分拣 规避 问题 亚一 故障预测 中间件 容量规划 Devops斗仞 性能预测 备战大屏 预算规划 资源申请0 码力 | 41 页 | 3.52 MB | 2 年前3
共 2 条
- 1













