JDOS - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

GPU Resource Management On JDOS

Management On JDOS 梁永清 liangyongqing1@jd.com ## 提供的服务 ## Experiment ## Training 1. 用于实验的 GPU 容器 2. 基于 Kubeflow 的机器学习训练服务 3. 模型管理和模型 Serving 服务 ## Serving 均基于容器，不对业务方直接提供 GPU 物理机 ## GPU 实验 JDOS 常规的容器服务， kubeflow 的分布式训练方案 - 界面化操作，用户提供代码地址和执行命令即可 - 系统内建支持安装 pip 依赖 - 自制存储插件支持分布式文件系统存储用户数据 - 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 - Job 调度（部门 quota 限制 + 优先级） public/tensorflow:1.7.0-devel-gpu-py3-v1 分布式训练单Worker使用GPU数量 $ ^{*} $ 数据来源储宝 UUID $ ^{*} $ jdos-testitest-wdl (jdos-testitest-wdl) 训练素材目录 $ ^{*} $ wdl GIT地址 $ ^{*} $ git@ ression.git 执行命令 $ ^{*}

0 码力 | 11 页 | 13.40 MB | 2 年前
3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全

流量监控配置管理 IDC应用 Jone应用自定义统计报表决策树事件管理远程工具网络拓扑系统监控问题管理国际化监控大屏网络巡检深度学习 Jdos应用库房应用数据库操作发布管理变更管理可视化分拣规避问题亚一故障预测中间件容量规划 Devops斗仞性能预测备战大屏预算规划资源申请

0 码力 | 41 页 | 3.52 MB | 2 年前
3

共 2 条前往

页

GPU资源管理 Kubeflow 分布式训练 GPU监控 JDOS 智能运维 APM 监控平台故障定位自动化运维

分类

语言

格式

GPU Resource Management On JDOS

基于 APM 的智能运维体系在京东物流的落地和实践-付正全

搜索

分类

语言

格式

GPU Resource Management On JDOS

基于 APM 的智能运维体系在京东物流的落地和实践-付正全