Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • • 集群扩容 • 组件升级 • … • 找出集群不正常工作的原因 : ( Kubernetes 典型异常 组件异常 • API Server Load Balancer 异常 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 iptables、内核参数 • 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables0 码力 | 31 页 | 9.57 MB | 1 年前3
Pod 容忍节点异常时间调整Pod 容忍节点异常时间调整 容忍节点异常时间调整 1. 原理说明 原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间,才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发⽣异常时及时将 Pod 驱逐 并在别的健康节点上重建? 要解决这个问题,我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常 5min40s(340s)后,节点上的 nodeStatusUpdateFrequency 参数(Kubelet 向主控节点汇报节点状态的时间间隔)⼤ N 倍; 这⾥ N 指的是 kubelet 发送节点状态的重试次数。 Pod 容忍节点异常时间调整 Copyright © 2012-2021 UCloud 优刻得 1/4 如需修改该参数,请逐台在三台 逐台在三台 Master 节点上 节点上进⾏如下操作: 1. 在 ControllerManager0 码力 | 4 页 | 104.64 KB | 1 年前3
Java 应用与开发 - 异常处理大纲 异常的概念及分类 Java 异常处理机制 Java 应用与开发 异常处理 王晓东 wangxiaodong@ouc.edu.cn 中国海洋大学 October 30, 2018 大纲 异常的概念及分类 Java 异常处理机制 学习目标 1. 掌握 Java 异常的概念和分类 2. 深入理解 Java 异常处理机制 大纲 异常的概念及分类 Java 异常处理机制 大纲 异常的概念及分类 异常的概念及分类 Java 异常处理机制 大纲 异常的概念及分类 Java 异常处理机制 C++ 中的异常处理 O 《The C++ Programming Language》 ▶ 一个库的作者可以检测出发生了运行时错误,但一般不知道 怎样去处理它们(因为和用户具体的应用有关); ▶ 另一方面,库的用户知道怎样处理这些错误,但却无法检查 它们何时发生(如果能检测,就可以再用户的代码里处理 了,不用留给库去发现)。 提供异常处理机制的的基本思想 让一个函数在发现了自己无法处理的错误时抛出(throw)一个 异常,然后它的(直接或者间接)调用者能够处理这个问题。 O 《C++ primer》 将问题检测和问题处理相分离。 (Exceptions let us separate problem detection from problem resolution.) 大纲 异常的概念及分类 Java0 码力 | 33 页 | 626.40 KB | 1 年前3
基于静态分析的Rust内存安全缺陷检测研究基于静态分析的Rust内存安全缺陷检测研究 报告人:徐辉 报告日期:2022.11.25 复旦大学 大纲 一、问题背景 二、Rust指针缺陷检测方法 三、实验结论 四、论文发表心得 大纲 一、问题背景 二、Rust指针缺陷检测方法 三、实验结论 四、论文发表心得 Rust语言 ❑ 系统级安全编程语言 ▪ 内存安全 ▪ 并发安全 ▪ 效率 2006年 2011年 handling drop(_0) 返回值 Auto Memory Reclaim问题:示例2 创建未初始化的变量foo Panic将导致访问未初始化内存 大纲 一、问题背景 二、Rust指针缺陷检测方法 三、实验结论 四、论文发表心得 研究挑战和思路 ❑ 研究挑战:指针分析是NP-hard问题 ▪ 准确性:应采用路径敏感的指针分析算法,避免过多误报 ▪ 分析效率:应基于Rust MIR的特点对算法进行优化,使其可行 MIR的特点对算法进行优化,使其可行 ❑ 整体思路:基于编译过程中的生成的MIR进行静态分析 ▪ 路径提取:控制流图=>生成树 ▪ 别名分析:分析指针之间的关联关系 ▪ 模式识别:根据预定义的缺陷模式检测指针漏洞 路径提取 别名分析 模式识别 “SafeDrop: Detecting memory deallocation bugs of Rust programs via static data-flow0 码力 | 28 页 | 1.55 MB | 1 年前3
机器学习课程-温州大学-09深度学习-目标检测2023年04月 深度学习-目标检测 黄海广 副教授 2 01 目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 本章目录 3 01 目标检测概述 1.目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 4 1.目标检测概述 分类(Classification) 类别的信息,用事先确定 好的类别(string)或实例ID 来描述图片。这一任务是 最简单、最基础的图像理 解任务,也是深度学习模 型最先取得突破和实现大 规模应用的任务。 检测(Detection) 分类任务关心整体,给出的 是整张图片的内容描述,而 检测则关注特定的物体目标 ,要求同时获得这一目标的 类别信息和位置信息。 分割(Segmentation) 分割包括语义分割(semantic segmentation)和实例分割( 分离开具有不同语义的图像部 分,而后者是检测任务的拓展 ,要求描述出目标的轮廓(相 比检测框更为精细)。 5 目标检测和识别 • 怎样检测和识别图 像中物体,如汽车、 牛等? 1.目标检测概述 6 目标识别的应用 1.目标检测概述 7 难点之一: 如何鲁棒识别? 1.目标检测概述 8 类内差异(intra-class variability) 1.目标检测概述 9 类间相似性(inter-class0 码力 | 43 页 | 4.12 MB | 1 年前3
《TensorFlow 2项目进阶实战》4-商品检测篇:使用RetinaNet瞄准你的货架商品商品检测篇:使用 RetinaNet 瞄准你的货架商品 扫码试看/订阅 《 TensorFlow 2项目进阶实战》视频课程 • 基础:目标检测问题定义与说明 • 基础:R-CNN系列二阶段模型综述 • 基础:YOLO系列一阶段模型概述 • 基础:RetinaNet 与 Facol Loss 带来了什么 • 应用:检测数据准备与标注 • 应用:划分检测训练集与测试集 • 应用:生成CSV 训练 RetinaNet • 应用:使用 RetinaNet 检测货架商品 • 扩展:目标检测常用数据集综述 • 扩展:目标检测更多应用场景介绍 目录 基础:目标检测问题定义与说明 目标检测问题 目标检测评估:Ground Truth 目标检测评估: Intersection over Union (IoU) 目标检测评估:Intersection over Union (IoU) Truth ??? = ???????????? ????? = Bounding Box Ground Truth 目标检测评估:准确率与召回率(以GT为中心) 目标检测评估:mean Average Precision(mAP) 基础:深度学习在目标检测的应用 目标检测近20年发展 Ref: Zou, Z., Shi, Z., Guo, Y. and Ye, J., 2019. Object0 码力 | 67 页 | 21.59 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 • 方差,偏度,峰度 • 同比,环比,周期性 • 自相关系数,变异系数 时间序列的拟合特征 • 移动平均算法 • 带权重的移动平均算法 • 指数移动平均算法 • 二次指数移动平均算法0 码力 | 28 页 | 1.88 MB | 1 年前3
2022年美团技术年货 合辑也欢迎大家转给更多有相同兴趣、积极上进的同事和朋友们,一起切 磋,共同成长。 祝愿2023年,大家诸事顺遂,健康平安。 序 算法 1 YOLOv6:又快又准的目标检测框架开源啦 1 目标检测开源框架 YOLOv6 全面升级,更快更准的 2.0 版本来啦 13 通用目标检测开源框架 YOLOv6 在美团的量化部署实战 17 7 次 KDD Cup&Kaggle 冠军的经验分享:从多领域优化到 AutoML 框架 设计模式二三事 647 基于代价的慢查询优化建议 670 Java 系列 | 远程热部署在美团的落地实践 692 日志导致线程 Block 的这些坑,你不得不防 713 基于 AI 算法的数据库异常监测系统的设计与实现 775 目录 < v Replication(上):常见复制模型 & 分布式系统挑战 792 Replication(下):事务,一致性与共识 818 TensorFlow 标准化思想及组装式架构在后端 BFF 中的实践 992 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 数据库全量 SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践(二) 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践0 码力 | 1356 页 | 45.90 MB | 1 年前3
openEuler 23.09 技术白皮书IO 性能,并提供更好的 资源控制和管理能力。主要功能包括:缓存写回控制、IO 优先级控制、写回策略调整等。 • 支持核挂死检测特性:解决 PMU 停止计数导致 hardlockup 无法检测系统卡死的问题,利用核间 CPU 挂死检测机制, 让每个 CPU 检测相邻 CPU 是否挂死,保障系统在部分 CPU 关中断挂死场景下能够自愈。 特性增强 15 openEuler 23.09 技术白皮书 基础设施和应用产生的数据量快速增长(每年增长 2~3 倍),应用大数据和机器学习技术日趋成熟,驱动高效智能 运维系统产生,助力企业降本增效。openEuler 智能运维提供智能运维基本框架,支持 CVE 管理、异常检测(数据库场景) 等基础能力,支持快速排障和运维成本降低。 A-Ops 通过挂载社区 CVE 漏洞 repo 源,进行 CVE 漏洞巡检,使用冷热补丁发布件(rpm 包)进行修复、回退和收编 等操作,提升运维效率。 应用场景 智能运维 平台 A-Ops 系统智能运维 硬件 外围包 内核 外设 Memory CPU Gala-x ragdoll diana apollo 日志分析 架构感知 异常检测 精准度量 智能算法 根因分析 在线调优 应用拓扑 系统数据湖 用户态热补丁 系统智能代理 系统自动配置 系统服务热替换(systemd、dbus、qemu等) 内核热替换 模块热替换 内核热补丁0 码力 | 52 页 | 5.25 MB | 1 年前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502废钢槽编号识别 • 皮带胶结头异常检测 • 皮带跑偏检测 • 烧结皮带跑偏检测 • 皮带托辊异常检测 • 分析监测烧结工序物料 成分 • 烧结皮带智能监测 • 烧结设备运行工况检测 • 料场生产计划智能配置 • 烧结矿成分预测 • 烧结矿质量预测 • 烧结烟气 S02 排放在 线预测与控制 • 构建能源消耗预测 • 智能故障诊断 • 挡板位移检测 • 皮带划痕、 撕裂、 跑偏检测预警 • 1球团皮带智能监测 1球团皮带智能监测 • 生球粒度分布在线 识别 • 球团1颗粒粒度检测 • 球团1现场生产安全 态势感知与预警 • 皮带机预测性维护 • 建立设备健康模型 • 焦化皮带智能监测 • 生产现场动作远程控制 • 焦化现场生产安全态势 感知与预警 • 部署打滑预测分析 • 能源计划 • 炼焦煤分级调湿工艺稳 定协调控制 • 焦化皮带智能监测 • 生产现场动作远程控制 • 焦化现场生产安全态势 焦化现场生产安全态势 感知与预警 • 部署打滑预测分析 • 能源计划 • 炼焦煤分级调湿工艺稳 定协调控制 • 危险物识别 • 人员安全监测 • 高炉料面温度检测 • 高炉料面可视化监控 • 炉顶布料效果评定 • 远程换钎 • 中间产品无人天车吊装 控制 • 废品无人天车吊装控制 • 铁水质量预报 • 高炉温度分布 • 高炉燃料比监测 • 高炉精准出铁预测 • 高炉炉况诊断 • 高炉燎铁能耗预测 • 高炉在含量智能预监0 码力 | 76 页 | 5.02 MB | 5 月前3
共 827 条
- 1
- 2
- 3
- 4
- 5
- 6
- 83













