GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务0 码力 | 11 页 | 13.40 MB | 1 年前3
Pod 容忍节点异常时间调整Pod 容忍节点异常时间调整 容忍节点异常时间调整 1. 原理说明 原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间,才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发⽣异常时及时将 Pod 驱逐 并在别的健康节点上重建? 要解决这个问题,我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 这两个 feature gate,节点及其上 Pod 的⽣命周期管理将通过节点的 Condition 和 Taint 来进⾏,Kubernetes 会不断地检查所有节点状态,设置对应的 Condition,根据 Condition 为节点设置对应的 Taint,再根据 Taint 来驱逐节点上的 Pod。 同时在创建 Pod 时会默认为 Pod 添加相应的 tolerationSeconds tolerationSeconds 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常0 码力 | 4 页 | 104.64 KB | 1 年前3
Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Master API Server Pod Master API Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables 增加阻断规则 FORWARD_IN_ZONES_SOURCE FORWARD_OUT_ZONES 容器网络不通 异常 VS 异常检测 ? 云原生操作系统0 码力 | 31 页 | 9.57 MB | 1 年前3
OpenShift Container Platform 4.9 节点Platform 4.9 节点 在 OpenShift Container Platform 中配置和管理节点 Last Updated: 2023-08-27 OpenShift Container Platform 4.9 节点 在 OpenShift Container Platform 中配置和管理节点 Enter your first name here. Enter your surname All other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . 管理操作 增强操作 1.2. 关于 POD 读取操作 管理操作 增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.6 节点Platform 4.6 节点 在 OpenShift Container Platform 中配置和管理节点 Last Updated: 2023-02-27 OpenShift Container Platform 4.6 节点 在 OpenShift Container Platform 中配置和管理节点 Enter your first name here. Enter your surname All other trademarks are the property of their respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . 功能增强操作 1.2. 关于 POD 读取操作 管理操作 功能增强操作 1.3. 关于容器 第 第 2 章 章 使用 使用 POD 2.1. 使用 POD 2.1.1. 了解 pod 2.1.2. pod 配置示例 2.1.3. 其他资源 2.2. 查看 POD 2.2.1. 关于 pod 2.2.2. 查看项目中的 pod 2.2.3. 查看 pod 用量统计 2.2.4. 查看资源日志0 码力 | 404 页 | 3.60 MB | 1 年前3
OpenShift Container Platform 4.13 CLI 工具OpenStack community. All other trademarks are the property of their respective owners. 摘要 摘要 本文档提供有关安装、配置和使用 OpenShift Container Platform 命令行工具的信息。它还包含 CLI 命令的参考信息,以及如何使用它们的示例。 . . . . . . . . . . . . . 1. CLI 工具列表 第 第 2 章 章 OPENSHIFT CLI (OC) 2.1. OPENSHIFT CLI 入门 2.2. 配置 OPENSHIFT CLI 2.3. OC 和 KUBECTL 命令的使用方法 2.4. 管理 CLI 配置集 2.5. 使用插件扩展 OPENSHIFT CLI 2.6. 使用 KREW 管理 CLI 插件 2.7. OPENSHIFT CLI 开发人员命令参考 SERVERLESS 的 的 KNATIVE CLI 4.1. 主要特性 4.2. 安装 KNATIVE CLI 第 第 5 章 章 PIPELINES CLI (TKN) 5.1. 安装 TKN 5.2. 配置 OPENSHIFT PIPELINES TKN CLI 5.3. OPENSHIFT PIPELINES TKN 参考 第 第 6 章 章 OPM CLI 6.1. 安装 OPM CLI 6.20 码力 | 128 页 | 1.11 MB | 1 年前3
OpenShift Container Platform 4.10 CLI 工具OpenStack community. All other trademarks are the property of their respective owners. 摘要 摘要 本文档提供有关安装、配置和使用 OpenShift Container Platform 命令行工具的信息。它还包含 CLI 命令的参考信息,以及如何使用它们的示例。 . . . . . . . . . . . . . 工具概述 工具概述 1.1. CLI 工具列表 第 第 2 章 章 OPENSHIFT CLI (OC) 2.1. OPENSHIFT CLI 入门 2.2. 配置 OPENSHIFT CLI 2.3. 管理 CLI 配置集 2.4. 使用插件扩展 OPENSHIFT CLI 2.5. OPENSHIFT CLI 开发人员命令参考 2.6. OPENSHIFT CLI 管理员命令参考 2 SERVERLESS 的 的 KNATIVE CLI 4.1. 主要特性 4.2. 安装 KNATIVE CLI 第 第 5 章 章 PIPELINES CLI (TKN) 5.1. 安装 TKN 5.2. 配置 OPENSHIFT PIPELINES TKN CLI 5.3. OPENSHIFT PIPELINES TKN 参考 第 第 6 章 章 OPM CLI 6.1. 安装 OPM CLI 6.20 码力 | 120 页 | 1.04 MB | 1 年前3
OpenShift Container Platform 4.8 CLI 工具OpenStack community. All other trademarks are the property of their respective owners. 摘要 摘要 本文档提供有关安装、配置和使用 OpenShift Container Platform 命令行工具的信息。它还包含 CLI 命令的参考信息,以及如何使用它们的示例。 . . . . . . . . . . . . . 工具概述 工具概述 1.1. CLI 工具列表 第 第 2 章 章 OPENSHIFT CLI (OC) 2.1. OPENSHIFT CLI 入门 2.2. 配置 OPENSHIFT CLI 2.3. 管理 CLI 配置集 2.4. 使用插件扩展 OPENSHIFT CLI 2.5. OPENSHIFT CLI 开发人员命令参考 2.6. OPENSHIFT CLI 管理员命令参考 2 3.3. 安装 ODO 3.4. 配置 ODO CLI 3.5. ODO CLI 参考指南 第 第 4 章 章 用于 用于 OPENSHIFT SERVERLESS 的 的 KNATIVE CLI 4.1. 主要特性 4.2. 安装 KNATIVE CLI 第 第 5 章 章 PIPELINES CLI (TKN) 5.1. 安装 TKN 5.2. 配置 OPENSHIFT PIPELINES0 码力 | 152 页 | 1.24 MB | 1 年前3
OpenShift Container Platform 4.10 构建应用程序使用项目 1.2. 处理应用程序 1.3. 使用 RED HAT MARKETPLACE 第 第 2 章 章 项 项目 目 2.1. 处理项目 2.2. 以其他用户身份创建项目 2.3. 配置项目创建 第 第 3 章 章 创 创建 建应 应用程序 用程序 3.1. 使用 DEVELOPER 视角创建应用程序 3.2. 从已安装的 OPERATOR 创建应用程序 3.3. 使用 CLI 使用 使用 TOPOLOGY 视图查 视图查看 看应 应用程序 用程序组 组成情况 成情况 4.1. 先决条件 4.2. 查看应用程序拓扑 4.3. 与应用程序和组件交互 4.4. 扩展应用程序 POD 以及检查构建和路由 4.5. 将组件添加到现有项目 4.6. 对应用程序中的多个组件进行分组 4.7. 在应用程序中添加服务 4.8. 从应用程序中删除服务 4.9. 用于 TOPOLOGY 视图的标签和注解 绑定工作负载 6.9. 使用 DEVELOPER 视角将应用程序连接到服务 第 第 7 章 章 使用 使用 HELM CHART 7.1. 了解 HELM 7.2. 安装 HELM 7.3. 配置自定义 HELM CHART 仓库 7.4. 使用 HELM 发行版本 第 第 8 章 章 DEPLOYMENTS 8.1. 了解 DEPLOYMENT 和 DEPLOYMENTCONFIG 对象0 码力 | 198 页 | 3.62 MB | 1 年前3
OpenShift Container Platform 4.14 存储Platform 4.14 存储 在 OpenShift Container Platform 中配置和管理存储 Last Updated: 2024-02-17 OpenShift Container Platform 4.14 存储 在 OpenShift Container Platform 中配置和管理存储 法律通告 法律通告 Copyright © 2023 Red Hat, Inc community. All other trademarks are the property of their respective owners. 摘要 摘要 本文档提供了使用不同存储后端配置持久性卷以及通过 pod 管理动态分配存储的信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 持久性存储概述 3.2. 卷和声明的生命周期 3.3. 持久性卷(PV) 3.4. 持久性卷声明 (PVC) 3.5. 块卷支持 3.6. 使用 FSGROUP 减少 POD 超时 第 第 4 章 章 配置持久性存 配置持久性存储 储 4.1. 使用 AWS ELASTIC BLOCK STORE 的持久性存储 4.2. 使用 AZURE 持久性存储 4.3. 使用 AZURE FILE0 码力 | 215 页 | 2.56 MB | 1 年前3
共 512 条
- 1
- 2
- 3
- 4
- 5
- 6
- 52













