GPU资源管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

OpenShift Container Platform 4.13 虚拟化

Foundation，Ceph RBD 卷优先于 CephFS 卷。重要重要您无法实时迁移使用以下配置的虚拟机：具有 ReadWriteOnce (RWO) 访问模式的存储卷透传功能，比如 GPU 对于这些虚拟机，不要将 evictionStrategy 字段设置为 LiveMigrate。 1.3. 单节点 OPENSHIFT 的不同您可以在单节点 OpenShift 上安装 OpenShift Network transfer 图。默认情况下，Network transfer 显示所有网络的总和。要查看特定网络的分类，请点 Breakdown by network。硬件硬件设备设备标题 GPU 和主机设备警警报报标题 OpenShift Virtualization 警报，按严重性分组快照快照标题进进行快照行快照和快照快照表。网网络络接口接口标题 SSH 点复制图标将 virtctl ssh 命令复制到剪贴板。 SSH 服务类型选项选择 SSH over LoadBalancer 或 SSH over NodePort。 GPU 设备点编辑图标添加 GPU 设备。主机设备点编辑图标添加主机设备。无头模式点编辑图标启用无头模式。 Services 部分如果安装了 QEMU 客户机代理，则显示服务。活跃用户部分如果安装了

0 码力 | 393 页 | 4.53 MB | 1 年前
3
OpenShift Container Platform 4.14 发行注记

conf 文件。(OCPBUGS-11046) 在 OpenShift Container Platform 4.14 中，所有节点都使用 Linux 控制组版本 2 (cgroup v2) 进行内部资源管理，以便与默认的 RHEL 9 配置保持一致。但是，如果您在集群中应用性能配置集，与性能配置集关联的低延迟调整功能不支持 cgroup v2。因此，如果您应用一个性能配置集，集群的所有节点都会重启，并切回到 7362) 在以前的版本中，container_t 无法访问直接渲染基础架构 (DRI) 设备。在这个版本中，策略已被更新，container_t 现在可以访问设备插件公开的 DRI 设备和 GPU 设备。( OCPBUGS-27275) 在以前的版本中，pod 从 Whereabouts CNI 插件创建的池中分配 IP 地址，在节点强制重启后会处于 ContainerCreating 状态。在这个版本中，在节点强制重启后与

0 码力 | 73 页 | 893.33 KB | 1 年前
3
OpenShift Container Platform 4.14 机器管理

OpenShift Container Platform 实现中，它通过扩展计算机器设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群：为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制设置优先级，以便集群对 pod 和新节点进行优先排序，而在不太重要的 pod 时不会上线设置扩展策略，以便您可以扩展节点，但不会缩减节点机器健康机器健康检查值，不要为 Spot 实例设置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中您可以复制并修改默认计算机器集配置，以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。有关支持的实例类型的更多信息，请参阅以下 NVIDIA 文档： NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件，并对新 MachineSet 定义进行以下更改：将 worker 替换为 gpu。这将是新计算机集的名称。将新 MachineSet 定义的实例类型更改为 g4dn，其中包括 NVIDIA Tesla T4 GPU。要了解更多有关 AWS g4dn 实例类型的信息，请参阅加速计算。

0 码力 | 277 页 | 4.37 MB | 1 年前
3
OpenShift Container Platform 3.11 扩展和性能指南

因为密度增加和降低成本而是一个可接受的权衡。例如，开发、质量保证(QA)或测试环境可能被过量使用，而生产环境可能并非如此。 OpenShift Container Platform 通过计算资源模型和配额系统实施资源管理。如需有关 OpenShift 资源模型的更多信息，请参阅文档。有关过量使用的更多信息和策略，请参阅集群管理指南中的过量使用文档。 4.2. 镜像注意事项 4.2.1. 使用预部署的镜像提高效率

0 码力 | 58 页 | 732.06 KB | 1 年前
3
OpenShift Container Platform 4.9 构建应用程序

requests 和 limits。目前，扩展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额的示例场景。流程 1. 确定集群中某个节点中有多少 GPU 可用。例如：输输出示例出示例本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1：输输出示例出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion: 定义一个请求单个 GPU 的 Pod。以下示例定义文件名为 gpu-pod.yaml： 6. 创建 pod： name: gpu-quota namespace: nvidia spec: hard: requests.nvidia.com/gpu: 1 # oc create -f gpu-quota.yaml resourcequota/gpu-quota created

0 码力 | 184 页 | 3.36 MB | 1 年前
3
OpenShift Container Platform 4.10 构建应用程序

requests 和 limits。目前，扩展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额的示例场景。流程流程 1. 确定集群中某个节点中有多少 GPU 可用。例如：输输出示例出示例本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1：输输出示例出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion: 定义一个请求单个 GPU 的 Pod。以下示例定义文件名为 gpu-pod.yaml： 6. 创建 pod： name: gpu-quota namespace: nvidia spec: hard: requests.nvidia.com/gpu: 1 # oc create -f gpu-quota.yaml resourcequota/gpu-quota created

0 码力 | 198 页 | 3.62 MB | 1 年前
3
OpenShift Container Platform 4.10 虚拟化

自定义资源(CR)配置为在安装驱动程序前启用介质设备，则不会启用介质设备。更新可能会触发此问题。例如，如果在 daemonset 之前更新 virt-handler，它安装 NVIDIA 驱动程序，则节点无法提供虚拟机 GPU。(BZ#2046298) 作为临时解决方案： 1. 从 HyperConverged CR 中删除 mediatedDevicesConfiguration 和 permittedHostDevices。 (number of graphics devices) 2 虚拟机请求的虚拟 CPU 数量虚拟机请求的虚拟图形卡数如果您的环境包含单一根 I/O 虚拟化（SR-IOV）网络设备或图形处理单元（GPU），请为每个设备分配 1 GiB 额外的内存开销。 4.1.2.2. CPU 开开销使用以下内容计算 OpenShift Virtualization 的集群处理器开销要求。每个虚拟机的 CPU 章章虚虚拟拟机机 57 表表 8.1. 虚虚拟拟机字段机字段标签页标签页字段或功能字段或功能详情标签注解描述 CPU/内存引导模式引导顺序 GPU 设备主机设备 SSH 访问 YAML 查看、编辑或下载自定义资源。调度节点选择器容限（Tolerations）关联性规则专用资源驱除策略 Descheduler 设置

0 码力 | 307 页 | 3.45 MB | 1 年前
3
OpenShift Container Platform 4.10 CLI 工具

mycondition1 Condition 5.3.8.4. condition list 列出条件。示例：示例：列出命名空列出命名空间间中的条件中的条件 5.3.9. Pipeline 资源管理命令 5.3.9.1. resource 管理管道资源。示例：示例：显显示帮助信息示帮助信息 5.3.9.2. resource create 创建一个 Pipeline 资源。

0 码力 | 120 页 | 1.04 MB | 1 年前
3
OpenShift Container Platform 4.2 镜像

的镜像应根据 cgroup 最大内存参数调整其堆大小，以确保不超过限值且不出现内存不足错误。有关如何在容器中管理 cgroup 配额的更多信息，请参阅以下参考资料：博客文章 - Docker 中的资源管理 Docker 文档 - 运行时指标博客文章 - Linux 容器内存设设置置镜镜像元数据像元数据定义镜像元数据有助于 OpenShift Container Platform

0 码力 | 92 页 | 971.35 KB | 1 年前
3
OpenShift Container Platform 4.13 CLI 工具

mycondition1 Condition 5.3.8.4. condition list 列出条件。示例：示例：列出命名空列出命名空间间中的条件中的条件 5.3.9. Pipeline 资源管理命令 5.3.9.1. resource 管理管道资源。示例：示例：显显示帮助信息示帮助信息 5.3.9.2. resource create 创建一个 Pipeline 资源。

0 码力 | 128 页 | 1.11 MB | 1 年前
3

共 22 条前往

页

OpenShift Container Platform 4.13 虚拟虚拟化 4.14 发行注记机器管理 3.11 扩展性能指南 4.9 构建应用程序应用程序 4.10 CLI 工具 4.2 镜像

分类

语言

格式

OpenShift Container Platform 4.13 虚拟化

OpenShift Container Platform 4.14 发行注记

OpenShift Container Platform 4.14 机器管理

OpenShift Container Platform 3.11 扩展和性能指南

OpenShift Container Platform 4.9 构建应用程序

OpenShift Container Platform 4.10 构建应用程序

OpenShift Container Platform 4.10 虚拟化

OpenShift Container Platform 4.10 CLI 工具

OpenShift Container Platform 4.2 镜像

OpenShift Container Platform 4.13 CLI 工具