高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践庄鹏锐 腾讯云高级工程师 ## 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 ## 解决方案 ## Pod 压缩 ## HPA ## 动态调度 Node 超卖 VPA 碎片处理 ## Pod 资源压缩  3rd Monitor Api Server HPA Object Queue Deploy and manage prometheus cluster Collect metrics Pod Pod Pod Node Exporters Prometheus-Operator 3rd0 码力 | 10 页 | 1.39 MB | 2 年前3
GPU Resource Management On JDOS## GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com ## 提供的服务 ## Experiment ## Training 1. 用于实验的 GPU 容器 2. 基于 Kubeflow 的机器学习训练服务 3. 模型管理和模型 Serving 服务 ## Serving 均基于容器,不对业务方直接提供 GPU 物理机0 码力 | 11 页 | 13.40 MB | 1 年前3
Pod 容忍节点异常时间调整## Pod 容忍节点异常时间调整 ### 1. 原理说明 Kubernetes 集群节点处于异常状态之后需要有一个等待时间,才会对节点上的 Pod 进行驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发生异常时及时将 Pod 驱逐并在别的健康节点上重建? 要解决这个问题,我们首先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 1.13 这两个 feature gate,节点及其上 Pod 的生命周期管理将通过节点的 Condition 和 Taint 来进行,Kubernetes 会不断地检查所有节点状态,设置对应的 Condition,根据 Condition 为节点设置对应的 Taint,再根据 Taint 来驱逐节点上的 Pod。 同时在创建 Pod 时会默认为 Pod 添加相应的 tolerationSeconds 参数,指定当节点出现异常(如 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运行多长的时间。 那么,节点发生异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s, Pod 对节点 NotReady 的容忍时间为 5min, 也就是说, 节点实际异常0 码力 | 4 页 | 104.64 KB | 2 年前3
Kubernetes 异常配置检测框架## Kubernetes 异常配置检测框架 顾静, 阿里云 邓隽, 阿里云 ## 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 ## 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 ## Kubernetes 使用日常 Server Pod 异常 ## 影响 - 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer  Service API Server Pod Master API Server Pod Master Master API Server Pod Master ## Kubernetes 典型异常 ## 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 iptables、内核参数 • 网络链路长,手动排查成本高 ## 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作  ## Algorithm 1 DRF pseudo-code $R = \langle r_{1}, \cdots, r_{m} \rangle$ ▷ total resource capacities $C = \langle c_{1}, \cdots, c_{m} \rangle$ ▷ consumed resources, initially 0 $s_{i}$ \max_{j=1}^{m} \{ u_{i,j} / r_{j} \}$ else return ▷ the cluster is full end if ① Mesos 采用了DRF(Dominant Resource Fairness) 调度机制。YARN自带FIFO、Capacity Scheduler和Fair Scheduler(借鉴了Mesos的DRF)。 ② Mesos中的DRF调度算法过分的0 码力 | 21 页 | 27.20 MB | 2 年前3
Compile-Time Compression and Resource Generation with C++20## +21 ## Compile-Time Compression and Resource Generation with C++20 ## ASHLEY ROLL 20 21 October 24-29 ## I ntroduction Explore how C++20's constexper features can: • Generate data from code that take a user-supplied lambda to generate the data needed to render our desired compile-time resource! - These are effectively templated functions, but we will use the cleaner auto parameter syntax0 码力 | 59 页 | 1.86 MB | 1 年前3
Java 应用系统开发 - ServletContext 和 Web 配置# Java 应用系统开发 ServletContext 和 Web 配置 王晓东 wangxiaodong@ouc.edu.cn 中国海洋大学 November 26, 2018  0 码力 | 33 页 | 668.91 KB | 2 年前3
《玩转webpack》 第四章 进阶篇: 编写可维护的 webpack 构建配置进阶篇:编写可维护的webpack 构建配置 05 | 进阶篇:webpack 构建速度和体积优化策略 06 | 原理篇:通过源码掌握webpack 打包原理 07 | 原理篇:编写 Loader 和插件 08 | 实战篇:React 全家桶 和webpack 开发商城项目 ## ☐ ☐ ☐ ☐ ## 扫码试看/订阅 《玩转webpack》 ## 构建配置抽离成 npm 包的意义 包的意义 通用性 ·业务开发者无需关注构建配置 ·统一团队构建脚本 可维护性 ·构建配置合理的拆分 ·README 文档、ChangeLog 文档等 质量 ·冒烟测试、单元测试、测试覆盖率 ·持续集成 ## 构建配置管理的可选方案 通过多个配置文件管理不同环境的构建,webpack --config 参数进行控制 将构建配置设计成一个库,比如:hjs-webpack、Neutrino、webpack-blocks webpack-blocks 抽成一个工具进行管理,比如:create-react-app, kyt, nwb 将所有的配置放在一个文件,通过 --env 参数控制分支选择 ## 构建配置包设计 ## 通过多个配置文件管理不同环境的 webpack 配置 ·基础配置:webpack.base.js ·开发环境:webpack.dev.js ·生产环境:webpack.prod.js ·SSR环境:webpack0 码力 | 30 页 | 5.38 MB | 2 年前3
4 【王琼】容器监控架构演进 王琼 YY直播
并不支持 k8s 这种采集方案。k8s 对 Container 进行了封装,拥有了 Pod、Deployment、Namespace、Service 等众多概念。与传统集群相比,k8s 集群监控更加复杂: 监控维度更多,除了传统物理集群的监控,还包括核心服务监控(API server,Etcd等)、容器监控、Pod监控、Namespace监控等 ● 监控对象动态可变,在集群中容器的销毁创建十分频繁,无法提前预置 随着集群动态增长,监控系统必须具备动态扩缩的能力 ## 监控遇上 Kubernetes 目前容器云平台提供的k8s集群包括: 10+集群(云+物理机房+边缘) 1000+机器 2W+ Pod ## 监控系统架构 • kubernetes_sd_config 自动发现服务 通过remote_write协议将数据写至kafka,容器云平台通过消费kafka topic获取容器基础监控数 - 减少单个样本数据的大小(一般情况下1-2个字节) 加载历史数据时,是从磁盘加载到内存,查询范围越大,内存越大 - 查询尽量避免大范围查询,注意时间范围和 Step 比例 - 不合理的查询条件,如 Group、大范围的 Rate - 大查询可以使用 RecordRule 加快block内存落盘时间 • storage.tsdb.min-block-duration0 码力 | 23 页 | 2.17 MB | 2 年前3
Greenplum资源管理器## Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io ## Agenda • Greenplum数据库 • Resource Queue • Resource Group ## Greenplum数据库 • 基于PostgreSQL • 分布式 • OLAP • MPP(Massively Parallel Processing) ## Greenplum数据库 6d5e7818fe3eb6bc09e8312568f4d7a/p4_1.jpg) ## Resource Queue • SQL语句并发控制 • 基于cost的并发控制 • 基于priority的CPU控制 • 内存控制 ## Running Example • CREATE RESOURCE QUEUE rq WITH ( active_statements = 6, min_cost = 50000, priority = high, memory_limit = '1024MB' ); • CREATE ROLE r1 RESOURCE QUEUE rq; • SELECT * FROM gp_toolkit.gp_resqueue_status; ## 内存控制 • virtual memory note keeping0 码力 | 21 页 | 756.29 KB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100
相关搜索词
Node节点资源碎片Pod Resource(requests)配置不合理WorkLoad/HPA 副本数设置不合理业务空闲时间Pod 压缩GPU资源管理Kubeflow分布式训练GPU监控JDOSPod节点Kubernetes容忍时长驱逐机制异常检测配置检查集群异常DSLMesosYARNDRF分布式平台管理金融行业架构constexprC++20lookup tablesconfiguration fusesUSB descriptorsServletContextWeb 配置ServletConfigWeb 环境对象会话超时Webpack构建配置npm 包测试覆盖率ESLint容器监控PrometheusVictoriaMetrics动态扩缩Greenplum数据库Resource QueueResource Group内存管理并发控制













