积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(23)Kubernetes(23)

语言

全部中文(简体)(15)英语(4)中文(简体)(3)中文(繁体)(1)

格式

全部PDF文档 PDF(22)PPT文档 PPT(1)
 
本次搜索耗时 0.025 秒,为您找到相关结果约 23 个.
  • 全部
  • 云计算&大数据
  • Kubernetes
  • 全部
  • 中文(简体)
  • 英语
  • 中文(简体)
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 GPU Resource Management On JDOS

    GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供
    0 码力 | 11 页 | 13.40 MB | 1 年前
    3
  • pdf文档 Kubernetes for Edge Computing across Inter-Continental Haier Production Sites

    全球工业互联网平台数量 > 150 国家 研究内容 代表成果 政策扶持 工业互联网综合平台,采用数据流打通与 数据分析衍生价值的结构 Predix平台 GE联合AT&T, CISCO, IBM, INTEL等企业组建工业互联网 联盟(IIC), 发布参考架构IIRA. 基于云的开放式物联网操作系统,实现全 面的系统集成和数据融合,打破数据孤岛 Mindsphere平台 德国联邦政府支持相关行业协会建设工业4 制造业”发展 工业互联网的指导意见》(以下简称: 《指导意见》),明确将打造平台 体系作为七大任务之 一,提出构建工业互联网标准体系,实施标准研制及 试验验证工程。 • GE 波音 罗克韦尔 IBM INTEL CISCO 微软 AT&T PTC HP DELL EMC • SAP 博士 SIEMENS ABB 英飞凌 • 海尔 三一 航天科工 徐工 美的 华为 阿里云 • 三菱 东芝 日立 索尼 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工
    0 码力 | 33 页 | 4.41 MB | 1 年前
    3
  • pdf文档 Kubernetes开源书 - 周立

    为单位。在Kubernetes中,⼀个cpu相当于: 1 AWS vCPU 1 GCP Core 1 Azure vCore 1 Hyperthread on a bare-metal Intel processor with Hyperthreading 允许⼩数。具有 spec.containers[].resources.requests.cpu=0.5 的容器,保证其所需的CPU资源是需要 io/nvidia-gpu: 0 cpu: 2 memory: 7679792Ki pods: 110 Allocatable: alpha.kubernetes.io/nvidia-gpu: 0 cpu: ⽤1个CPU单位。 CPU单位 CPU资源以cpu为单位。 在Kubernetes,⼀个cpu相当于: 1 AWS vCPU 1个GCP核⼼ 1 Azure vCore 1个在裸机Intel处理器上的超线程 允许⼩数值。你可以使⽤m后缀来表示“毫”。例如100m cpu,100millicpu和0.1cpu表达的含义其实是相同的。精度不允 许超过1m。 精度不允许超过1m的意思是,你不能指定有500
    0 码力 | 135 页 | 21.02 MB | 1 年前
    3
  • pdf文档 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅

    可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include buffer IO) GPU 背景:广告业务,8个集群,4个在线集群,4个离线集群, 分布在四个地区:北京、天津、成都、深圳。 需求:减少机器,降低成本。 手段:在线离线集群做合并。 问题:容器只能管理CPU和内存,不能对网络和磁盘IO做 自动迁移低负载Node上的Pod,完成缩容 • 一定数量Pod因资源不足pending时,自动扩容 能力扩展:灰度升级 • 在GPU集群中有一个长时间服务应用prd-cloud-str-003-p40- cluster1。该应用有25个实例,每个实例需要2个GPU卡。用 来提供图片识别的OCR服务。 • 当该服务要升级新的版本时,如果对所有实例停止,则会造 成服务中断;如果采用滚动升级,无法保证升级过程是否有 • 内置云盘基于cephRBD • 腾讯内部ceph版本,微信同款 能力扩展:GPU支持 分布式存储Ceph 海量小数据读写优化 不同用户配额管理 任务带盘迁移 智能拓扑感知 GPU卡拓扑感知 资源访问代价树决策 资源调度算法解决碎片化 异构GPU统一管理 多种调度策略,多租户管理GPU卡 与CPU核自动绑定 支持单机多卡和多机多卡 发表论文:《Gaia Scheduler:
    0 码力 | 28 页 | 3.92 MB | 1 年前
    3
  • pdf文档 运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛

    ��K8S�AI��! ������! ������! AI�����-��! • ���������������! • ��������������! AI�����-GPU! • �����! • GPU����������������! AI�����-��! • �����! • IOPS�������������������10T+�! • NFS������! • • Docker Swarm���������! • Rancher��������! • Mesos or Kubernetes�! ����! ����! GPU���! • GPU��! • K8S����GPU�������������! • JOB��! • ����Job�����������������! �������! • ����Prometheus���� • �K8S�����������! • ��list-watch API-Server�����rbd! Ceph on K8S���! GPU�������! • Node Label���GPU! • key: nvidia-gpu-type! • value: Telsa-K80! • ��NodeSelector����! • nodeSelectorTerms! CPU�Mem����
    0 码力 | 39 页 | 5.82 MB | 1 年前
    3
  • pdf文档 Alluxio 助力 Kubernetes, 加速云端深度学习

    P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练时间(hours) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速
    0 码力 | 22 页 | 11.79 MB | 1 年前
    3
  • pdf文档 运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智

    Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 10G及以上的 networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google 个人研发功能 模型训练 有 有 模型上线服务 即将上线 有 原生态 TensorBoard 支持 即将上线 有 训练项目管理 有 有 代码编辑 有 有 GPU 支持 即将上线 有 远程命令行支持 有 有 TaaS 运行原理 TaaS 主要功能 – 数据存储 TaaS 主要功能 – 项目管理 TaaS 主要功能 – 项目精准度分析及汇总
    0 码力 | 77 页 | 14.48 MB | 1 年前
    3
  • pdf文档 Kubernetes全栈容器技术剖析

    有状态应用模型等能力; • 可纳管最新的Windows 1709系统,支持启动Windows Native容 器。 12 CCE支持GPU异构计算能力,帮助企业高效灵活应用深度学习服务 • 将旧的加速计算应用程序容器化,并部署 在较新的系统或者云环境中。 • 将特定的 GPU 资源分配给容器,以获得 更好的隔离效果和性能。 • 轻松地跨不同的环境共享应用程序、协同 工作和测试应用程序。 主流DL框架 ,2*2T SATA,1*AMD GPU(S7150CG) TCO(/仿真手机/年) 958 手机APP开发测试时间缩短到原有的1/10, 提高手机软件开发和测试效率,大幅缩短测 试时间(6K用例测试时间由9小时降低到56 分钟) TCO降低50% ARM服 务器 裸金属容 器 Taishan server VNC Server CPU GPU 容器 容器 容器 容器 Taishan Taishan server CPU GPU 外设模拟 内测版本仓库 ReleaseMan 版本发布仓库 ReleaseMan 手机APP自动化测试 TestBird 服务端测试 TestMan 云部署 DeployMan 服务端发布 服务端部署 下载 APP发布 下载服务端 AppStore 安卓市场 (华为) 发布 发布 测试管理 TestMan 23 案
    0 码力 | 26 页 | 3.29 MB | 1 年前
    3
  • pdf文档 云计算白皮书

    性能高效稳定。硬件芯片方面,通过屏蔽底层芯片差异实现资源池 化,从而满足对各种芯片的统一调度,这不仅包含对飞腾、鲲鹏、 龙芯、海光等芯片兼容,还包含不同指令集架构的 CPU,以及除 CPU 以外的专有芯片的兼容,如 GPU、DPU 等。软件应用方面,一云多 芯能够适配各种操作系统、虚拟机、容器数据库、中间件等,同时 还能够支撑虚拟化和云原生应用形态。性能调优方面,一云多芯可 以对不同芯片进行调优适配,提升平台整体性能。通过虚拟化产品 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在 数据处理方面,模型训练涉及 PB 级的存储数据集、中间结果和训练 好的模型参数等,且数据类型各异,也需要云计算平台提供的存储 样性算力资源池的能力,高性能计算云平台(HPC)、FPGA 云主机、 GPU 云主机、智算平台等多样性算力资源均通过云的方式统一接入, 极大地丰富了科研机构、企业、高校以及个人触达算力的便捷性与 普惠度。同时,东数西算、大模型训练等场景带来了多样性数据, 也催生了可高效满足不同业务诉求的多性化计算架构,如 ARM、 RISC-V 等通用计算技术路线,以及 GPU、DPU、NPU 等融合架构 计算平台,云计算使
    0 码力 | 47 页 | 1.22 MB | 1 年前
    3
  • pdf文档 202106 KubeOperator:开源的轻量级 Kubernetes 发行版

    Multi-AZ ⽀支持 Master 节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 DIY ⽅方式 VS. 采纳 KubeOperator 3 个⽉月 + 5 ⼈人 + 500 ⼈人天 + 4 ⼩小时 1 CoreDNS;⽀支持 Flannel / Calico ⽹网络插件;⽀支持 ingress-nginx / Traefik; ⽀支持通过 F5 Big IP 对外暴暴露露服务(X-Pack); GPU ⽅方案 ⽀支持 NVIDIA GPU; 操作系统 ⽀支持 RHEL / CentOS / EulerOS 操作系统; 容器器运⾏行行时 ⽀支持 Docker / Containerd; Day 1 部署 部署
    0 码力 | 20 页 | 1.62 MB | 1 年前
    3
共 23 条
  • 1
  • 2
  • 3
前往
页
相关搜索词
GPUJDOSKubernetesforEdgeComputingacrossInterContinentalHaierProductionSites开源周立腾讯基于企业企业级容器实践罗韩梅运维上海2017机器学习模型训练袁晓沛AlluxioOn车漾范斌AI结合相结合架构落地解析赵慧智全栈技术剖析计算白皮皮书白皮书202106KubeOperator轻量量级轻量级发行发行版
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩