积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(180)VirtualBox(45)机器学习(38)Kubernetes(26)Pandas(23)OpenShift(22)Hadoop(6)云原生CNCF(6)边缘计算(5)Docker(3)

语言

全部中文(简体)(88)英语(86)中文(简体)(3)西班牙语(1)中文(繁体)(1)

格式

全部PDF文档 PDF(177)其他文档 其他(2)PPT文档 PPT(1)
 
本次搜索耗时 0.031 秒,为您找到相关结果约 180 个.
  • 全部
  • 云计算&大数据
  • VirtualBox
  • 机器学习
  • Kubernetes
  • Pandas
  • OpenShift
  • Hadoop
  • 云原生CNCF
  • 边缘计算
  • Docker
  • 全部
  • 中文(简体)
  • 英语
  • 中文(简体)
  • 西班牙语
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • 其他文档 其他
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 GPU Resource Management On JDOS

    GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供
    0 码力 | 11 页 | 13.40 MB | 1 年前
    3
  • pdf文档 激活函数与GPU加速

    激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.
    0 码力 | 11 页 | 452.22 KB | 1 年前
    3
  • pdf文档 TensorFlow on Yarn:深度学习遇上大数据

    • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�
    0 码力 | 32 页 | 4.06 MB | 1 年前
    3
  • pdf文档 运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智

    Docker/rkt • kubelet • kube-proxy Kubernetes 基本概念 - Master Master 节点是 Kubernetes 环境中的管理节点,负责整个集群 的资源管理/分配,容器编排。一个 Master 节点包含如下组件: • kube-controller-manager • kube-apiserver • kube-scheduler Kubernetes Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 10G及以上的 networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google
    0 码力 | 77 页 | 14.48 MB | 1 年前
    3
  • pdf文档 Kubernetes for Edge Computing across Inter-Continental Haier Production Sites

    混合云 监控日志 基础服务 镜像仓库 认证鉴权 资源管理 面向业务开发 CI/CD 微服务 应用商店 面向业务管理 弹性伸缩 API Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工
    0 码力 | 33 页 | 4.41 MB | 1 年前
    3
  • pdf文档 Volcano加速金融行业大数据分析平台云原生化改造的应用实践

    公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。 Volcano Global Kubernetes Volcano-controller Kube-apiserver Job/JobFlow Queue vc-controller vc-scheduler vsub kubectl Node NUMA GPU Node NUMA GPU … VolcanoGlobal 架构 多中心 低成本 无绑定 VG Scheduler ETCD Karmada Controllers K8s API Server Fair-share • Namespace fair-share • Task-topology • IO-Awareness • Resource reservation • SLA • GPU sharing • NUMA-Awareness • HDRF • Hierarchy Queue • Co-location • Elastic scheduling • TDM •
    0 码力 | 18 页 | 1.82 MB | 1 年前
    3
  • pdf文档 谭国富:深度学习在图像审核的应用

    PCIe-V100 GPU核心 GPU微架构 Pascal Pascal Volta 核心代号 GP104 GP102 GV100 Tensor Cores NA NA 640 CUDA核数量 3456 3840 5120 处理器制程 - 16nm FinFET 12nm FinFET Core Clock(<=) 1621MHz 1531MHz 1450MHz GPU显存 显存类型 打通训练和应用的闭环 RapidFlow 训练平台 底层硬件加速 操作系统 应用场景 add conv w x b 公共计算库 X86 优化 Android 优化 iOS 优化 GPU 优化 内存池 硬件设备 网络模型 • 越来越多的应用场景,云服务,Android,iOS, 闸机嵌入式 • 越来越复杂的限制条件, 内存,功耗,延迟 • 越来越多的数据量,图像从百万到千万,数据从图像到视频 App 2 PS Job 1 App 2 App 3 SSH Job 1 Train Job 1 Val Job 2 WK Job 2 WK Job 3 监控/启停 任务调度/资源管理 监控上报 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像
    0 码力 | 32 页 | 5.17 MB | 1 年前
    3
  • pdf文档 云计算白皮书

    等先进架构升级应用范式;二是数据架构现代化,以云原生为底座 优化数据摄取、数据存储、数据分析、数据消费、数据治理等能力, 云计算白皮书(2023 年) 16 充分挖掘数据价值等;三是技术架构现代化,从资源管理、运维保 障、研发测试、应用服务等方面构建通用的对上赋能的技术底座; 四是组织流程现代化,通过工作思维、管理方式、协作模式的革新, 从组织、人员层面适配现代化发展思路;五是用户体验现代化,重 性能高效稳定。硬件芯片方面,通过屏蔽底层芯片差异实现资源池 化,从而满足对各种芯片的统一调度,这不仅包含对飞腾、鲲鹏、 龙芯、海光等芯片兼容,还包含不同指令集架构的 CPU,以及除 CPU 以外的专有芯片的兼容,如 GPU、DPU 等。软件应用方面,一云多 芯能够适配各种操作系统、虚拟机、容器数据库、中间件等,同时 还能够支撑虚拟化和云原生应用形态。性能调优方面,一云多芯可 以对不同芯片进行调优适配,提升平台整体性能。通过虚拟化产品 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在 数据处理方面,模型训练涉及 PB 级的存储数据集、中间结果和训练 好的模型参数等,且数据类型各异,也需要云计算平台提供的存储
    0 码力 | 47 页 | 1.22 MB | 1 年前
    3
  • pdf文档 基于 KUBERNETES 的 容器器 + AI 平台

    
 project CI/CD workspace Pod … resources CPU quota MEM quota Storage quota Device (GPU) quota …. quota Service Config group … k8s objects Application template ⽤用户场景 - OPENSTACK TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理 • ⼯工作区隔离与共享 • 数据、模型、环境、应⽤用等 • 全⾯面⽀支持 AI ⼯工作流 • 探索开发 • 线上运⾏行行 关注并回复 kubecon18 P7 展台
    0 码力 | 19 页 | 3.55 MB | 1 年前
    3
  • pdf文档 OpenShift Container Platform 4.13 虚拟化

    Foundation,Ceph RBD 卷优先于 CephFS 卷。 重要 重要 您无法实时迁移使用以下配置的虚拟机: 具有 ReadWriteOnce (RWO) 访问模式的存储卷 透传功能,比如 GPU 对于这些虚拟机,不要将 evictionStrategy 字段设置为 LiveMigrate。 1.3. 单节点 OPENSHIFT 的不同 您可以在单节点 OpenShift 上安装 OpenShift Network transfer 图。默认情况下,Network transfer 显示所有网络的总和。要查看特定网络的分类,请点 Breakdown by network。 硬件 硬件设备 设备标题 GPU 和主机设备 警 警报 报标题 OpenShift Virtualization 警报,按严重性分组 快照 快照标题 进 进行快照 行快照 和 快照 快照 表。 网 网络 络接口 接口标题 SSH 点复制图标将 virtctl ssh 命令复制到剪贴板。 SSH 服务类型选项 选择 SSH over LoadBalancer 或 SSH over NodePort。 GPU 设备 点编辑图标添加 GPU 设备。 主机设备 点编辑图标添加主机设备。 无头模式 点编辑图标启用无头模式。 Services 部分 如果安装了 QEMU 客户机代理,则显示服务。 活跃用户部分 如果安装了
    0 码力 | 393 页 | 4.53 MB | 1 年前
    3
共 180 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 18
前往
页
相关搜索词
GPUJDOS深度学习PyTorch入门实战28激活函数加速TensorFlowonYarn遇上数据运维上海2017KubernetesAI结合相结合架构落地解析赵慧智forEdgeComputingacrossInterContinentalHaierProductionSitesVolcano金融行业分析数据分析平台云原生化改造应用实践国富图像审核计算白皮皮书白皮书KUBERNETESOpenShiftContainerPlatform4.13虚拟虚拟化
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩