高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践
云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission0 码力 | 10 页 | 1.39 MB | 1 年前3OpenShift Container Platform 4.6 节点
4.1.1. 支持的指标 2.4.1.2. 扩展策略 2.4.2. 使用 Web 控制台创建 pod 横向自动扩展 2.4.3. 使用 CLI 根据 CPU 使用率创建 pod 横向自动扩展 2.4.4. 使用 CLI 根据内存使用率创建 pod 横向自动扩展对象 2.4.5. 使用 CLI 了解 pod 横向自动扩展状态条件 2.4.5.1. 使用 CLI 查看 pod 横向自动扩展状态条件 用 用户 户 更多信息 更多信息 创建和使用横向 pod 自动缩放器。 开发者 您可以使用 pod 横向自动扩展来指定您要 运行的 pod 的最小和最大数量,以及 pod 的目标 CPU 使用率或内存使用率。通过使 用 pod 横向自动扩展,您可以 自动扩展 pod。 OpenShift Container Platform 4.6 节 节点 点 10 安装和使用垂直 pod 自动缩放器。 的最小和最大数量,以及 pod 的目标 CPU 使 用率或内存使用率。 重要 重要 根据内存使用率自动缩放仅是一项技术预览功能。 在创建了 pod 横向自动扩展后,OpenShift Container Platform 会开始查询 pod 上的 CPU 和/或内存资 源指标。当这些指标可用时,pod 横向自动扩展会计算当前指标使用率与所需指标使用率的比率,并相应 地扩展或缩减。查询和缩放是定期进0 码力 | 404 页 | 3.60 MB | 1 年前3PromQL 从入门到精通
Gauge 和 Counter 类型。 Gauge 类型 Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 有了解,得先搞清楚时 序数据。 认识时序数据 我们先来看一张图,图上是 5 台机器的内存可用率: 每个机器的内存可用率数据,体现为图上的一条线,我们称为 series,某个机器在某一时刻的内 存可用率数据,我们称为数据点,比如上图,2022-08-25 15:05:22 这个时刻,每个机器都有 一个可用率数据点,共计 5 个数据点。 上面的图是查询的最近一小时的,我们切换到 Table 视图,得到如下结果: 1 举一个例子来演示真实环境下的算术运算符的应用,比如之前的例子,对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的,如果采集器没有计算,而是上报了 原始指标 mem_available 和 mem_total,我们仍然可以使用 promql 计算出可用率指标: 逻辑上,是先根据 mem_available{app="clickhouse"}0 码力 | 16 页 | 2.77 MB | 1 年前32022年美团技术年货 合辑
879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 标准化思想及组装式架构在后端 BFF 中的实践 992 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 数据库全量 YOLOv5/YOLOX 使用的 Backbone 和 Neck 都基于 CSPNet[5] 搭建,采用了多分 支的方式和残差结构。对于 GPU 等硬件来说,这种结构会一定程度上增加延时,同 时减小内存带宽利用率。下图 2 为计算机体系结构领域中的 Roofline Model[8] 介绍 图,显示了硬件中计算能力和内存带宽之间的关联关系。 4 > 2022年美团技术年货 图 2 Roofline Model 技术,YOLOv6s_repopt INT8 QPS 达到了 552,相较 FP16 提升了~ 40%。我 们对服务器的各项指标进行了监测,发现此时 T4 GPU 的利用率只有 95%,还有压 榨空间,而 16 核 CPU 利用率已经超过了 1500%,几乎满负荷运转。我们推测整个 线上服务的“瓶颈”可能在 CPU,而图片预处理会使用大量 CPU 资源。 表 9 服务器资源配置 算法 < 330 码力 | 1356 页 | 45.90 MB | 1 年前3openEuler 22.03 LTS SP2 技术白皮书
同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 降或者系统整体性能下降的问题。 14 openEuler 22.03 LTS SP2 技术白皮书 内核创新 SMT 驱离防止优先级反转特性 目前云场景中,在线业务与离线业务混合部署提升资源利用率的同时,如何保证在线业务的 QoS 是当前亟需解决的问 题。在开启 SMT 场景中,同时运行在同一个物理核上的在离线业务与在线业务之间存在干扰。针对这一诉求,设计混部 SMT 驱离方案,用于隔离离线任务对在线任务的 范围 : 100—1000 默认值 : 100 配置建议 : • 过长,可能会导致在线任务停止运行后,离线任务处于 sleep 状态,CPU 一段时间内处于 idle 状态,降低 CPU 利用率。 • 过小,会导致离线任务频繁唤醒,干扰在线任务。 功能描述 CPU* HT1 HT2 online task offline task 严重干扰 CPU* HT1 HT2 online0 码力 | 48 页 | 5.62 MB | 1 年前3Kubernetes全栈容器技术剖析
60.0% 80.0% 100.0% 120.0% 100 300 500 CPU占用率对比 裸金属容器CPU 虚机容器CPU 8 8 8.1 8.77 8.77 8.8 7.6 7.8 8 8.2 8.4 8.6 8.8 9 100 300 500 内存占用率对比 裸金属容器进程内存 虚机容器进程内存 对比结论: 在同等压力下裸金属容器的响应时延减少1 Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 15 全球首发云容器实例服务CCI :更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 升50% 挑战 收益 传统虚机应用上线慢 业务扩容时间长 同业务压力下资 源利用率低 传统虚机应用交 互性能低 • 应用可以基于容器镜像一站式自动化“构建发布上线” • 应用快速上线、扩容、升级,秒级弹性扩缩容 • 基于容器更细粒度共享,提升资源利用率 16 支持多租隔离、租户内部各用户之间的权限隔离,基于组织提供 镜像的访问权限管理 安全保障 组织级别隔离及镜像粒度权限控制,共同保障镜像安全 权限控制简单便捷 提供界面,分配镜像的访问权限 对接DevCloud、GitHub、GitLab,一键式完成从代码下载到 镜像构建的完整流程,并支持对接CCE完成镜像部署0 码力 | 26 页 | 3.29 MB | 1 年前3OpenShift Container Platform 4.9 节点
4.1.1. 支持的指标 2.4.1.2. 扩展策略 2.4.2. 使用 Web 控制台创建 pod 横向自动扩展 2.4.3. 使用 CLI 根据 CPU 使用率创建 pod 横向自动扩展 2.4.4. 使用 CLI 根据内存使用率创建 pod 横向自动扩展对象 2.4.5. 使用 CLI 了解 pod 横向自动扩展状态条件 2.4.5.1. 使用 CLI 查看 pod 横向自动扩展状态条件 操作 User 更多信息 更多信息 创建并使用 pod 横向自动扩展。 开发者 您可以使用 pod 横向自动扩展来指定您要 运行的 pod 的最小和最大数量,以及 pod 的目标 CPU 使用率或内存使用率。通过使 用 pod 横向自动扩展,您可以自动扩展 pod。 安装和使用垂直 pod 自动缩放器。 管理员和开发人员 作为管理员,通过监控资源和资源要求, 使用垂直 pod 自动扩展来更好地利用集群 横向自动扩展来指定您要运行的 pod 的最小和最大数量,以及 pod 的目标 CPU 使 用率或内存使用率。 在创建了 pod 横向自动扩展后,OpenShift Container Platform 会开始查询 pod 上的 CPU 和/或内存资 源指标。当这些指标可用时,pod 横向自动扩展会计算当前指标使用率与所需指标使用率的比率,并相应 地扩展或缩减。查询和缩放是定期进行的,但可能需要一到两分钟时间才会有可用指标。0 码力 | 374 页 | 3.80 MB | 1 年前3为何选择VMware?
� � 10 聚合:将彼此隔离的资源转换为共享池 VMware Infrastructure 能将来自物理服务器、存储和网络群的计算资源聚合为逻辑资源池,从而最 大限度地提高效率和利用率。如果没有聚合为逻辑池的能力,企业最终得到的都是若干小资源,即使 进行了虚拟化和服务器整合也是如此。 VMware 独家提供了一种资源池模型,该模型能够自行管理和自行优化物理资源,同时还支持 IT 需要从第三方购买。 • VMware DRS 确保实现最高的资源利用率,同时保持业务部门对其基础架构的控制权和自主权。 分配:富有弹性的资源池 共享资源池中的自动工作负载平衡可实现资源的优化使用。这样可以确保企业充分利用资源,而且在 需要时有正确的资源可用。 VMware DRS 持续监控资源池中的资源利用率,并可智能地根据业务需求来调整资源,从而使您能 够: • 将 IT 资源动态分配给优先级最高的应用程序。创建规则和策略,以便按照优先级将资源分配到 虚拟机。 • 给予业务部门 IT 自主性。为业务部门提供专用的 IT 基础架构,同时仍通过资源池获得较高的 硬件利用率。 • 在对硬件资源进行集中 IT 控制的同时,授权业务部门在自己的资源池内建立和管理虚拟机。 “通过 [VMware] DRS,我们能够将 VI 团队解放出来,让他们进行其他项目。”0 码力 | 34 页 | 862.76 KB | 1 年前3TiDB v8.4 中文手册
监控服务对外服务和客户端 (浏览器) 访问端口 Alertmanager 9093 告警 web 服务端口 Alertmanager 9094 告警通信端口 5.1.5 磁盘空间要求 组件 磁盘空间要求 健康水位使用率 | TiDB | 日志盘建议最少预留 30 GB。 v6.5.0 及以上版本默认启用了 Fast Online DDL 对添加索引等 DDL 操作进行加速(通过变量tidb_ddl_enable_fast Home 目录下。 5.3.8 混合部署拓扑 本文介绍 TiDB 集群的 TiKV 和 TiDB 混合部署拓扑以及主要参数。常见的场景为,部署机为多路 CPU 处理器,内 存也充足,为提高物理机资源利用率,可单机多实例部署,即 TiDB、TiKV 通过 numa 绑核,隔离 CPU 资源。PD 和 Prometheus 混合部署,但两者的数据目录需要使用独立的文件系统。 5.3.8.1 拓扑信息 TiKV 的 CPU 利用率依然很低? TiKV 虽然整体 CPU 偏低,但部分模块的 CPU 可能已经达到了很高的利用率。 TiKV 的其他模块,如 storage readpool、coprocessor 和 gRPC 的最大并发度限制是可以通过 TiKV 的配置文件进行调 整的。 通过 Grafana 的 TiKV Thread CPU 监控面板可以观察到其实际使用率。如出现多线程模块瓶颈,可以通过增加该0 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v8.5 中文手册
监控服务对外服务和客户端 (浏览器) 访问端口 Alertmanager 9093 告警 web 服务端口 Alertmanager 9094 告警通信端口 5.1.5 磁盘空间要求 组件 磁盘空间要求 健康水位使用率 | TiDB | 日志盘建议最少预留 30 GB。 v6.5.0 及以上版本默认启用了 Fast Online DDL 对添加索引等 DDL 操作进行加速(通过变量tidb_ddl_enable_fast Home 目录下。 5.3.8 混合部署拓扑 本文介绍 TiDB 集群的 TiKV 和 TiDB 混合部署拓扑以及主要参数。常见的场景为,部署机为多路 CPU 处理器,内 存也充足,为提高物理机资源利用率,可单机多实例部署,即 TiDB、TiKV 通过 numa 绑核,隔离 CPU 资源。PD 和 Prometheus 混合部署,但两者的数据目录需要使用独立的文件系统。 5.3.8.1 拓扑信息 TiKV 的 CPU 利用率依然很低? TiKV 虽然整体 CPU 偏低,但部分模块的 CPU 可能已经达到了很高的利用率。 TiKV 的其他模块,如 storage readpool、coprocessor 和 gRPC 的最大并发度限制是可以通过 TiKV 的配置文件进行调 整的。 通过 Grafana 的 TiKV Thread CPU 监控面板可以观察到其实际使用率。如出现多线程模块瓶颈,可以通过增加该0 码力 | 5095 页 | 104.54 MB | 9 月前3
共 305 条
- 1
- 2
- 3
- 4
- 5
- 6
- 31