OpenShift Container Platform 4.14 机器管理OpenShift Container Platform 实现中,它通过扩展计算机器 设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群: 为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制 设置优先级,以便集群对 pod 和新节点进行优先排序,而在不太重要的 pod 时不会上线 设置扩展策略,以便您可以扩展节点,但不会缩减节点 机器健康 机器健康检查 值,不要为 Spot 实例设 置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中 您可以复制并修改默认计算机器集配置,以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。 有关支持的实例类型的更多信息,请参阅以下 NVIDIA 文档: NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件,并对新 MachineSet 定义进行以下更改: 将 worker 替换为 gpu。这将是新计算机集的名称。 将新 MachineSet 定义的实例类型更改为 g4dn,其中包括 NVIDIA Tesla T4 GPU。要了解更 多有关 AWS g4dn 实例类型的信息,请参阅加速计算。0 码力 | 277 页 | 4.37 MB | 1 年前3
OpenShift Container Platform 4.9 构建应用程序requests 和 limits。目前,扩 展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额 的示例场景。 流程 1. 确定集群中某个节点中有多少 GPU 可用。例如: 输 输出示例 出示例 本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1: 输 输出示例 出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion: 定义一个请求单个 GPU 的 Pod。以下示例定义文件名为 gpu-pod.yaml: 6. 创建 pod: name: gpu-quota namespace: nvidia spec: hard: requests.nvidia.com/gpu: 1 # oc create -f gpu-quota.yaml resourcequota/gpu-quota created0 码力 | 184 页 | 3.36 MB | 1 年前3
OpenShift Container Platform 4.10 构建应用程序requests 和 limits。目前,扩 展资源只允许使用带有前缀 requests. 配额项。以下是如何为 GPU 资源 nvidia.com/gpu 设置资源配额 的示例场景。 流程 流程 1. 确定集群中某个节点中有多少 GPU 可用。例如: 输 输出示例 出示例 本例中有 2 个 GPU 可用。 2. 在命名空间 nvidia 中设置配额。本例中配额为 1: 输 输出示例 出示例 resourcequota 'Capacity|Allocatable|gpu' openshift.com/gpu-accelerator=true Capacity: nvidia.com/gpu: 2 Allocatable: nvidia.com/gpu: 2 nvidia.com/gpu 0 0 # cat gpu-quota.yaml apiVersion: 定义一个请求单个 GPU 的 Pod。以下示例定义文件名为 gpu-pod.yaml: 6. 创建 pod: name: gpu-quota namespace: nvidia spec: hard: requests.nvidia.com/gpu: 1 # oc create -f gpu-quota.yaml resourcequota/gpu-quota created0 码力 | 198 页 | 3.62 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化自定义资源(CR)配置为在安装驱动程序前启用介质设备,则不会启 用介质设备。更新可能会触发此问题。例如,如果在 daemonset 之前更新 virt-handler,它安装 NVIDIA 驱动程序,则节点无法提供虚拟机 GPU。(BZ#2046298) 作为临时解决方案: 1. 从 HyperConverged CR 中删除 mediatedDevicesConfiguration 和 permittedHostDevices。 (number of graphics devices) 2 虚拟机请求的虚拟 CPU 数量 虚拟机请求的虚拟图形卡数 如果您的环境包含单一根 I/O 虚拟化(SR-IOV)网络设备或图形处理单元(GPU),请为每个设备分配 1 GiB 额外的内存开销。 4.1.2.2. CPU 开 开销 使用以下内容计算 OpenShift Virtualization 的集群处理器开销要求。每个虚拟机的 CPU 章 章 虚 虚拟 拟机 机 57 表 表 8.1. 虚 虚拟 拟机字段 机字段 标签页 标签页 字段或功能 字段或功能 详情 标签 注解 描述 CPU/内存 引导模式 引导顺序 GPU 设备 主机设备 SSH 访问 YAML 查看、编辑或下载自定义资源。 调度 节点选择器 容限(Tolerations) 关联性规则 专用资源 驱除策略 Descheduler 设置0 码力 | 307 页 | 3.45 MB | 1 年前3
OpenShift Container Platform 4.13 虚拟化Foundation,Ceph RBD 卷优先于 CephFS 卷。 重要 重要 您无法实时迁移使用以下配置的虚拟机: 具有 ReadWriteOnce (RWO) 访问模式的存储卷 透传功能,比如 GPU 对于这些虚拟机,不要将 evictionStrategy 字段设置为 LiveMigrate。 1.3. 单节点 OPENSHIFT 的不同 您可以在单节点 OpenShift 上安装 OpenShift Network transfer 图。默认情况下,Network transfer 显示所有网络的总和。要查看特定网络的分类,请点 Breakdown by network。 硬件 硬件设备 设备标题 GPU 和主机设备 警 警报 报标题 OpenShift Virtualization 警报,按严重性分组 快照 快照标题 进 进行快照 行快照 和 快照 快照 表。 网 网络 络接口 接口标题 SSH 点复制图标将 virtctl ssh 命令复制到剪贴板。 SSH 服务类型选项 选择 SSH over LoadBalancer 或 SSH over NodePort。 GPU 设备 点编辑图标添加 GPU 设备。 主机设备 点编辑图标添加主机设备。 无头模式 点编辑图标启用无头模式。 Services 部分 如果安装了 QEMU 客户机代理,则显示服务。 活跃用户部分 如果安装了0 码力 | 393 页 | 4.53 MB | 1 年前3
OpenShift 的Windows 容器支持展 此资源基于上游集群自动扩展项目。在 OpenShift Container Platform 实现中,它通过扩展机器集 API 来与 Machine API 集成。您可以为核心、节点、内存和 GPU 等资源设置集群范围的扩展限制。您可以 设置优先级,使集群对 Pod 进行优先级排序,以便不针对不太重要的 Pod 使新节点上线。您还可以设 置扩展策略,以便可以扩展节点,但不会缩减节点。 机器健康 展 此资源基于上游集群自动扩展项目。在 OpenShift Container Platform 实现中,它通过扩展机器集 API 来与 Machine API 集成。您可以为核心、节点、内存和 GPU 等资源设置集群范围的扩展限制。您可以 设置优先级,使集群对 Pod 进行优先级排序,以便不针对不太重要的 Pod 使新节点上线。您还可以设 置扩展策略,以便可以扩展节点,但不会缩减节点。 机器健康 展 此资源基于上游集群自动扩展项目。在 OpenShift Container Platform 实现中,它通过扩展机器集 API 来与 Machine API 集成。您可以为核心、节点、内存和 GPU 等资源设置集群范围的扩展限制。您可以 设置优先级,使集群对 Pod 进行优先级排序,以便不针对不太重要的 Pod 使新节点上线。您还可以设 置扩展策略,以便可以扩展节点,但不会缩减节点。 机器健康0 码力 | 52 页 | 962.49 KB | 1 年前3
OpenShift Container Platform 4.6 发行注记网络必须使用 DHCP 或 Red Hat Openshift SDN 的静态地址。 使用 Eclipse OpenJ9 的 AdoptOpenJDK 安装程序置备的基础架构 NVIDIA GPU 设备管理器 特殊资源 Operator OpenShift Ansible Service Broker Operator(已弃用) dotNET on RHEL 支持的功能 支持的功能 Container Platform 4.6.1 的新安装中没有 GPU Operator 和 Node Feature Discovery(NFD)Operator。您需要安装 OpenShift Container Platform 4.5 并将集群 升级到 4.6.1 版以使用 GPU 和 NFD Operator。这个问题已被解决,GPU 和 NFD Operator 现在 可在 OpenShift0 码力 | 91 页 | 1.15 MB | 1 年前3
OpenShift 的Windows 容器支持展 此资源基于上游集群自动扩展项目。在 OpenShift Container Platform 实现中,它通过扩展机器集 API 来与 Machine API 集成。您可以为核心、节点、内存和 GPU 等资源设置集群范围的扩展限制。您可以 设置优先级,使集群对 Pod 进行优先级排序,以便不针对不太重要的 Pod 使新节点上线。您还可以设 置扩展策略,以便可以扩展节点,但不会缩减节点。 机器健康 展 此资源基于上游集群自动扩展项目。在 OpenShift Container Platform 实现中,它通过扩展机器集 API 来与 Machine API 集成。您可以为核心、节点、内存和 GPU 等资源设置集群范围的扩展限制。您可以 设置优先级,使集群对 Pod 进行优先级排序,以便不针对不太重要的 Pod 使新节点上线。您还可以设 置扩展策略,以便可以扩展节点,但不会缩减节点。 机器健康0 码力 | 38 页 | 757.61 KB | 1 年前3
OpenShift Container Platform 4.12 专用硬件和驱动程序启用建和部署树外内核模块和驱动程序。内核模块和驱动程序是在操作系统内核中具有高级别权限运行的软件 库。它们扩展了内核功能,或者提供控制新设备所需的硬件特定代码。例如,硬件设备,如现场可编程阵 列 (FPGA) 或图形处理单元(GPU),以及软件定义的存储解决方案(客户端机器上需要内核模块)。驱动 程序容器是用于在 OpenShift Container Platform 部署中启用这些技术的软件堆栈的第一层。 第 第 1 章 内核模块和驱动程序是在操作系统内核中具有高级别权限运行的软件库。它们扩展了内核功能,或者提供 控制新设备所需的硬件特定代码。示例包括 Field Programmable Gate Arrays(FPGA)或 GPU 等硬件设 备,以及软件定义型存储(SDS)解决方案(如 Lustre parallel 文件系统,它在客户端机器上需要内核模 块)。驱动程序容器是用于在 Kubernetes 上启用这些技术的软件堆栈的第一层。0 码力 | 54 页 | 591.48 KB | 1 年前3
OpenShift Container Platform 4.6 关于Operator Vertical Pod Autoscaler 包括 包括 Vertical Pod Autoscaler 集群监控 (Prometheus) 包括 包括 集群监控 设备管理器(例如 GPU) 包括 包括 N/A 日志转发(使用 fluentd) 包括 包括 Red Hat OpenShift Logging Operator(用 于带有 fluentd 的日志转 发) Telemeter0 码力 | 26 页 | 718.91 KB | 1 年前3
共 14 条
- 1
- 2













