Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • • 集群扩容 • 组件升级 • … • 找出集群不正常工作的原因 : ( Kubernetes 典型异常 组件异常 • API Server Load Balancer 异常 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 iptables、内核参数 • 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables0 码力 | 31 页 | 9.57 MB | 1 年前3
云计算白皮书载 体细粒度化等诉求下,底层硬件在云计算的驱动下也因云而变。2022 年 6 月,阿里云发布 CIPU(Cloud infrastructure Processing Units,云 基础设施处理器),其是一套全新的计算架构体系,能够在通用计算、 大数据、人工智能等场景中展现更好的性能。2022 年 12 月,AWS 云计算白皮书(2023 年) 7 发布第五代虚拟化芯片 Amazon 各 模块之间依赖关系错综复杂,给服务性能分析、故障定位、根因分 析等带来了诸多困难;云上系统故障率随设备数量的增加而呈指数 级增长,单一节点问题可能会被无限放大,日常运行过程中一定会 伴随“异常”发生;同时,节点分布范围更广,节点数量更多,对 日常运维过程中的日志采集、变更升级等都带来了新的挑战。基于 以上挑战,系统稳定性保障领域呈现以下特点:一是“稳保体系” 创新促进业务稳定运行。稳定的业务系统保障了企业的连续运营、 性提供了实时监测 和系统分析的能力,完善的系统可观测性相当于人体的“神经系统”, 感知系统状态、定位系统故障,协助进行容量治理及性能调优,并 通过建立基线模型和监测系统的行为模式,来检测和预测异常情况, 实现自动化运维和自愈能力。三是机器学习与人工智能提升稳定性 保障的建设成效。人工智能和机器学习技术将在系统稳定性保障技 术体系中发挥越来越重要的作用,并进一步提升落地成效。通过对 云计算白皮书(20230 码力 | 47 页 | 1.22 MB | 1 年前3
第1930期:Kubernetes基础介绍自动发布和回滚:可以自动实现版本的发布和回滚。 秘钥和配置管理:对于密码等信息,专门提供了Secert对象为其解耦。 存储编排:支持多种不同类型的存储,包括本地存储、云存储、网络存储等。 批量处理执行:除服务型应用,还支持批处理作业CI(持续集成),如有需要,一样可以实现容器故障后修复。 Kubernetes特点: 可移植: 支持公有云,私有云,混合云,多重云(multi-cloud) 可扩展: 模块化 册和发现等机制 Controller Manager控制管理器(kube-controller-manager):k8s里所有资源对象的自动化控制中心,可以理解为 资源对象的“大总管”。运行着所有处理集群日常任务的控制器。包括节点控制器、副本控制器、端点控制器及服务账号 和令牌控制器。负责维护集群的状态,比如故障检测、自动扩展、滚动更新等。 Scheduler调度器(kube-schedule Failed。这个状态下,Pod 里至少有一个容器以不正常的状态(非 0 的返回码)退出。这个状态的出现,意味着你得想办 法 Debug 这个容器的应用,比如查看 Pod 的 Events 和日志。 5.Unknown。这是一个异常状态,意味着 Pod 的状态不能持续地被 kubelet 汇报给 kube-apiserver,这很有可能是主从 节点(Master 和 Kubelet)间的通信出现了问题。 更进一步地,Pod 对象的0 码力 | 49 页 | 4.11 MB | 1 年前3
⾸云容器产品Kubernetes操作指南⽣命周期:为容器的⽣命周期配置容器启动执⾏、启动后处理和停⽌前处理。具体参⻅ https://kubernetes.io/docs/tasks/configure-pod-container/attach-handler-lifecycle- event/。 启动执⾏:为容器设置预启动命令和参数。 启动后处理:为容器设置启动后的命令。 停⽌前处理:为容器设置预结束命令。 数据卷:⽀持配置本地存储和云存储。 ⽣命周期:为容器的⽣命周期配置容器启动执⾏、启动后处理和停⽌前处理。具体参⻅ https://kubernetes.io/docs/tasks/configure-pod-container/attach-handler-lifecycle- event/。 启动执⾏:为容器设置预启动命令和参数。 启动后处理:为容器设置启动后的命令。 停⽌前处理:为容器设置预结束命令。 数据卷:⽀持配置本地存储和云存储。 ⼀个集群内部的 IP 地址,只能在集群内部被访问。 NodePort 在每台 Node 的固定端⼝上暴露服务,选择 NodePort 的服务类型,集群会⾃动创建⼀个 ClusterIp 类型 的服务,负责处理Node接收到的外部流量。集群外部的 Client 可以通过:的⽅式访问该服务。 创建服务 1.在容器集群菜单下,单击左侧导航栏中的服务与路由 > 服务,进⼊服务列表⻚⾯。 2.选择所需的集群和命名空间,单击⻚⾯右上⻆的创建服务。0 码力 | 94 页 | 9.98 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达SLSA。对于大多数 团队来说,致命弱点仍然是依赖项中存在漏洞,通常是来自于多层的间接依赖项。Dependabot 等工具可以通 过创建拉取请求(PR)来更新依赖项。不过,团队仍然需要制定工程纪律,以确保及时处理这些 PR,尤其是 对长时间不活跃的应用程序或服务提交的 PR。 如果系统具有广泛的测试覆盖范围——不仅有完善的单元测试,还包括有功能和性能测试,并且构建流水线必 须运行所有这些测试以及安全扫描,我们更提倡自动合并依赖项更新 IaC 方式管理云原生资源的主要工具。然而,当下大多数托管环境都是云供应商 原生服务、第三方服务和自定义代码的复杂组合。在这些环境中,我们发现工程师通常会使用 Terraform 处理 云资源,又使用自定义脚本处理其他资源。这可能导致资源创建过程缺乏一致性和可重复性。事实上,在托管环 境中常用的许多第三方服务 Terraform 都提供了相应的支持程序,可以用来创建和配置这些服务,例如 Splunk、 Terraform 创建监控和告 警。这将实现更模块化的 IaC,更易于理解和维护。与所有 IaC 一样,同时使用多种方式进行配置变更,会带来 不一致的风险。所以,我们建议禁用通过用户界面和 API 的方式处理配置变更,确保 Terraform 代码始终是唯 一的真实生效的版本。 9. ReAct 提示工程 试验 ReAct 提示工程是一种用于提示大语言模型的方法,相较于思维链(CoT)等竞争方法,ReAct0 码力 | 43 页 | 2.76 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅组件自身HA机制,如docker; • 多地域多可用区的容灾设计 • 管理机挂掉:对应用无影响 • 计算节点挂掉:跨机迁移 • 健康探针 ① 存活探针 ② 就绪探针 • 负载均衡 • 重启机制 ① 区分异常原因 ② 本地重启/跨机重启 • 黑名单机制 • 集群核心数据的备份和恢复 ① Etcd ② 核心数据库 • 云盘机制保护应用数据 • 举例:1.4升级1.9版本 • Pod Hash发生变化 • ◼尽量减少为了流控而主动丢包 下图是两个进程都拼命争抢网络带宽时的效果。两个进程的 带宽和时延都得不到任何程度的保证。 ◼队列: 不增加队列, 对每个报文直接在正常代码路径上进行决策 ◼Cgroup区分(标记): 在正常处理流程中,报文查找到目标socket结构之 后,根据socket的owner process来确定cgroup ◼报文决策: 令牌桶 + 共享令牌池 + 显式借令牌 ◼限速方式: ECN标记 + TCP滑窗 cluster1。该应用有25个实例,每个实例需要2个GPU卡。用 来提供图片识别的OCR服务。 • 当该服务要升级新的版本时,如果对所有实例停止,则会造 成服务中断;如果采用滚动升级,无法保证升级过程是否有 异常,以及无法充分验证新版本的可用性(即使经过了测试 阶段的测试)。 • 通常采用灰度升级的方式:即选择某一个或N个实例先升级到 新版本,在充分稳定验证后,再考虑升级其他实例,而该灰 度的过程可以分为任意批次。有时为了验证多个版本,一个0 码力 | 28 页 | 3.92 MB | 1 年前3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge低时延:为满⾜足低时延的要求,需要在离业务现场最近的边缘构建解决⽅方案,减少业务处理理时延。� ➔ 海海量量数据:物联⽹网时代边缘数据爆炸性增⻓长,难以直接回传⾄至云端且成本⾼高昂,数据在本地进⾏行行分析和过滤,节省⽹网络带宽。� ➔ 隐私安全:数据涉及到企业⽣生产和经营活动安全,在边缘处理理企业保密信息和个⼈人隐私。� ➔ 本地⾃自治:不不依赖云端的离线处理理能⼒力力和⾃自我恢复能⼒力力。� 低时延 海海量量数据 边缘计算应⽤用场景——智慧园区� ➔ 基于边缘计算打造智慧园区,通过视频监控+AI分析实现从⼈人防到技防,提升园区运营效率,提⾼高园区住户体验。� ➔ 对监控视频智能分析,实时感知⼊入侵、⼈人流量量⼤大等异常事件,降低园区的⼈人⼒力力成本。� ➔ 端侧⼈人脸抓取,视频分析在边缘侧执⾏行行。云端管理理边缘应⽤用全⽣生命周期,⽆无缝升级。云端AI模型训练,边缘侧推理理。� 端� 边� 云� ⼈人脸 检测 边缘计算应⽤用场景——智能家居� ➔ 基于边缘计算打造⾼高效、舒适、安全、便便利利、环保的智能家居环境。� ➔ 云端推送边缘应⽤用,实现应⽤用全⽣生命周期管理理和边缘设备托管。� ➔ 端侧涵盖多种智能设备,边缘侧就近处理理隐私数据,回传必要数据到云端。� 端� 边� 云� 容器器� 摄像头� 语⾳音设备� 红外设备� 应⽤用推送、应⽤用管理理、边缘设备托管� …...� 数据上传� 容器器� 容器器�0 码力 | 20 页 | 2.08 MB | 1 年前3
从Mesos到Kubernetes接入层(TCPCopy) 支持流量放大、缩小 一键批处理压测 服务网格 智能负载均衡 流量路由策略 服务保护机制 混沌军团 随机关闭生产环境中的实例,模拟服 务故障 引入人为延时,模拟服务降级 寻找未使用、可被清理的资源 寻找不符合预定义最佳实践的服务 发现和跟踪异常修改,排查安全问题 DCBrain 根因分析0 码力 | 30 页 | 2.12 MB | 1 年前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验风险识别自愈能力升级 • 传统运维体系的效率问题 - 应用启动流程复杂 - 决策链路较长 - 状态一致性风险 容器平台 监控 VIP 服务注册 配置中心 运维平台 观察者 异常消费 基础设施 异常来源• 统一容器与应用实例的生命周期 • 下沉应用的冗余度信息 容器即应用 运维平台 监控 VIP 服务注册 配置中心 启动完成 应用实例的生命周期 API Server Eviction • UnitedDeployment (coming soon) https://openkruise.iok8s 规模及性能优化实践性能优化 RT/QPS 资源使用率 链路RT/QPS 服务异常 队列长度 gRPC监控 长连接分布 请求分布 限流 Authorization Authenticatio n 序列化 压缩 版本转换 Admission Cache Storage Filter0 码力 | 33 页 | 8.67 MB | 6 月前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
Prometheus,⽀支持对集群、节点、Pod、Container 的全⽅方位监控和告警;内置 EFK、Loki ⽇日志⽅方案;内置 Grafana 作为监控和⽇日志展示; ⽀支持消息中⼼心,通过钉钉、微信通知各种集群异常事件(X-Pack); 升级 ⽀支持集群升级; 伸缩 ⽀支持增加或者减少 Worker 节点; 备份 ⽀支持 etcd 定期备份和⽴立即备份; 恢复 ⽀支持 etcd 备份策略略⽂文件恢复和本地⽂文件恢复; 经验、使⽤用技 巧等相关知识。 KubeOperator X-Pack 增强包功能 增强功能持续增加中 对接 LDAP/AD 界⾯面⾃自定义 消息中⼼心, 通过钉钉、微信通知各种 集群异常事件 集群健康评分 通过 F5 Big IP 对外暴暴露露服务 多集群配置管理理 多云时代技术领先的企业级软件提供商 www.fit2cloud.com THANK YOU www.fit2cloud0 码力 | 20 页 | 1.62 MB | 1 年前3
共 25 条
- 1
- 2
- 3













