Pod 容忍节点异常时间调整tolerationSeconds 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常 io/not-ready" operator: "Exists" effect: "NoExecute" tolerationSeconds: 300 这种⾃动添加的容忍度意味着在其中⼀种问题(NotReady / UnReachable)被检测到时 Pod 默认能够继续停留在当前节点运⾏ 5 分钟。 Pod 容忍节点异常时间调整 Copyright © 2012-2021 UCloud 优刻得 --default-not-ready-toleration-seconds=100 及 --default-unreachable-toleration-seconds=100,将对 污点 NotReady:NoExecute 及 Unreachable:NoExecute 的容忍时⻓(以秒记,默认为 300)调整为 100s,修改前请做好配置⽂件备份 修改前请做好配置⽂件备份; 2. 执⾏ systemctl0 码力 | 4 页 | 104.64 KB | 1 年前3
OpenShift Container Platform 4.7 日志记录"ContainerCreating", "status": "True", "type": "" } ] }, "deployment": "kibana", "pods": { "failed": [], "notReady": [] "ready": [] }, "replicaSets": [ "kibana-5fdd766ffd" ], "replicas": 1 } ] 第 第 10 章 章 更新 更新 "ContainerCreating", "status": "True", "type": "" } ] }, "deployment": "kibana", "pods": { "failed": [], "notReady": [] "ready": [] }, "replicaSets": [ "kibana-5fdd766ffd" OpenShift Container Platform 4.7 日志 日志记录 fluentd-n2frh: ip-10-0-157-45.ec2.internal pods: failed: [] notReady: [] ready: - fluentd-2rhqp - fluentd-54nx5 - fluentd-6fgjh0 码力 | 183 页 | 1.98 MB | 1 年前3
OpenShift Container Platform 4.8 日志记录"ContainerCreating", "status": "True", "type": "" } ] }, "deployment": "kibana", "pods": { "failed": [], "notReady": [] "ready": [] }, "replicaSets": [ "kibana-5fdd766ffd" ], "replicas": 1 } ] OpenShift Container "ContainerCreating", "status": "True", "type": "" } ] }, "deployment": "kibana", "pods": { "failed": [], "notReady": [] "ready": [] }, "replicaSets": [ "kibana-5fdd766ffd" 第 第 10 章 章 更新 更新 OPENSHIFT LOGGING 165 fluentd-n2frh: ip-10-0-157-45.ec2.internal pods: failed: [] notReady: [] ready: - fluentd-2rhqp - fluentd-54nx5 - fluentd-6fgjh0 码力 | 223 页 | 2.28 MB | 1 年前3
OpenShift Container Platform 4.7 更新集群的版本。 注意 注意 当您更新包含有 Red Hat Enterprise Linux (RHEL) worker 机器的集群时,这些 worker 会在更新过程中暂时不可用。当集群进入 NotReady 状态时,您需要针对 每个 RHEL 机器运行升级 playbook 以完成更新。 8.3. 可选:添加 HOOK 以在RHEL系统上执行ANSIBLE任务 在OpenShift Container 查看当前节点状态,以确定要更新哪个 RHEL worker: 输 输出示例 出示例 记录下哪个机器具有 NotReady, ,SchedulingDisabled 状态。 b. 查看位于 //inventory/hosts 中的 Ansible 清单文件,并更新其内容,以便只有具有 NotReady,SchedulingDisabled 状态的机器才列在 [workers] 部分中,如下例所示: mycluster-control-plane-2 Ready master 145m v1.20.0 mycluster-rhel7-0 NotReady,SchedulingDisabled worker 98m v1.14.6+97c81d00e mycluster-rhel7-1 Ready 0 码力 | 62 页 | 716.72 KB | 1 年前3
OpenShift Container Platform 4.13 虚拟化故障节点会被自动回收。 RunStrategy 被设置为 Always 或 RerunOnFailure 的虚拟机会自动调度到健康 的节点上。 10.10.1. 先决条件 运行虚拟机的节点具有 NotReady 条件。 在故障节点中运行的虚拟机的 RunStrategy 设置为 Always。 已安装 OpenShift CLI(oc)。 10.10.2. 从裸机集群中删除节点 当您使用 CLI virt-controller 部署的状态: 4. 获取 virt-controller 部署的详情来检查状态状况,如崩溃 pod 或拉取镜像失败: 5. 检查节点是否出现任何问题。例如,它们可能处于 NotReady 状态: 缓 缓解方案 解方案 此警报可以有多个原因,包括: 集群没有足够的内存。 节点已停机。 $ oc get nodes -o jsonpath='{.items[*].status 诊断 断 1. 设置 NAMESPACE 环境变量: 2. 获取 virt-operator 部署的名称: 3. 获取 virt-operator 部署的详情: 4. 检查节点问题,如 NotReady 状态: 缓 缓解方案 解方案 根据诊断过程中获取的信息,尝试识别根本原因并解决问题。 如果您无法解决这个问题,登录到客户门户网站并创建一个支持问题单,附加诊断过程中收集的工件。 $ export0 码力 | 393 页 | 4.53 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化故障节点会被自动回收。 RunStrategy 被设置为 Always 或 RerunOnFailure 的虚拟机会自动调度到健康 的节点上。 8.9.1. 先决条件 运行虚拟机的节点具有 NotReady 条件。 在故障节点中运行的虚拟机的 RunStrategy 设置为 Always。 已安装 OpenShift CLI(oc)。 8.9.2. 从裸机集群中删除节点 当您使用 CLI 中将节点设置为维护模式 通过将节点标记为不可调度,并使用 oc adm drain 命令从节点驱除或删除 pod,将节点设置为维护模 式。 流程 流程 1. 将节点标记为不可调度。节点状态变为 NotReady,SchedulingDisabled。 2. 排空节点以准备进行维护。节点实时迁移 LiveMigratable 条件设置为 True,spec:evictionStrategy 字段设置为 是否存在并检查其状态。 3. 检查 virt-controller pod 的事件。 4. 检查 virt-controller pod 的日志。 5. 检查节点是否有问题,如节点是否处于 NotReady 状态。 解决方案 解决方案 一些原因可能会造成没有 Ready 状态的 virt-controller pod。确定根本原因并采取适当的操作。 否则,创建一个支持问题,并提供故障排除过程中收集的信息。0 码力 | 307 页 | 3.45 MB | 1 年前3
OpenShift Container Platform 4.14 更新集群STATUS ROLES AGE VERSION 第 第 1 章 章 了解 了解 OPENSHIFT 更新 更新 19 如果节点的状态为 NotReady 或 SchedulingDisabled,则该节点不可用,且这会影响更新持续 时间。 您可以通过展开 Compute → Node 从 web 控制台中的 Administrator 视角检查节点的状态。 的版本。 重要 重要 当您更新包含有 Red Hat Enterprise Linux (RHEL) worker 机器的集群时,这些 worker 会在更新过程中暂时不可用。当集群进入 NotReady 状态时,您需要针对 每个 RHEL 机器运行升级 playbook 以完成更新。 其他 其他资 资源 源 更新安装的 Operator 3.5.3. 可选:添加 hook 以在RHEL系统上执行Ansible任务 更新 更新 vSphere 上 上计算 算节点的虚 点的虚拟硬件 硬件 要降低停机的风险,建议按顺序更新计算节点。 注意 注意 可以在并行给定工作负载中更新多个计算节点,可以接受具有 NotReady 状态的多个节 点。管理员负责确保所需的计算节点可用。 先决条件 先决条件 在托管 OpenShift Container Platform 集群的 vCenter 实例中具有执行所需权限的权限。0 码力 | 149 页 | 1.94 MB | 1 年前3
OpenShift Container Platform 4.2 支持Amazon Web Services)以及集群所在区域的 详情 有关已降级的 OpenShift Container Platform 集群 Operator 的 Pod 的信息 标记为 NotReady 的节点的信息 为 Degraded operator 列出为 "related objects" 的所有命名空间的事件 Insights Operator 不会收集任何身份识别信息,如用户名、密码、用户资源的名称或地址。0 码力 | 14 页 | 192.83 KB | 1 年前3
OpenShift Container Platform 4.9 节点您可以获取集群中节点的详细信息。 以下命令列出所有节点: 以下示例是具有健康节点的集群: 输 输出示例 出示例 以下示例是具有一个不健康节点的集群: 输 输出示例 出示例 触发 NotReady 状态的条件在本节中显示。 -o wide 选项提供有关节点的附加信息。 输 输出示例 出示例 $ oc get nodes $ oc get nodes NAME master.example.com Ready master 7h v1.22.1 node1.example.com NotReady,SchedulingDisabled worker 7h v1.22.1 node2.example.com Ready true,代表节点上的进程太多。 OutOfDisk 如果为 true,代表节点上的可用空间不足,无法添加新 pod。 NetworkUnavailable 如果为 true,代表节点的网络不会被正确配置。 NotReady 如果为true,代表一个底层组件(如容器运行时或网络)遇到了问题或尚未配 置。 SchedulingDisabled 无法通过调度将 Pod 放置到节点上。 5.1.2. 列出集群中某一节点上的0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.6 节点7h v1.19.0 $ oc get nodes 第 第 5 章 章 操作 操作节 节点 点 223 触 触发 发 NotReady 状 状态 态的条件在本 的条件在本节 节中 中显 显示。 示。 -o wide 选项 选项提供有关 提供有关节 节点的附加信息。 点的附加信息。 master.example.com Ready master 7h v1.20.0 node1.example.com NotReady,SchedulingDisabled worker 7h v1.20.0 node2.example.com Ready true,代表节点上的进程太多。 OutOfDisk 如果为 true,代表节点上的可用空间不足,无法添加新 pod。 NetworkUnavailable 如果为 true,代表节点的网络不会被正确配置。 NotReady 如果为true,代表一个底层组件(如容器运行时或网络)遇到了问题或尚未配 置。 SchedulingDisabled 无法通过调度将 Pod 放置到节点上。 5.1.2. 列出集群中某一0 码力 | 404 页 | 3.60 MB | 1 年前3
共 16 条
- 1
- 2













