Kubernetes 异常配置检测框架顾静, 阿里云 邓隽, 阿里云 Kubernetes 异常配置检测框架 我们来自阿里云容器服务 • 顾静,研发工程师 • 邓隽,技术专家 我们参与打造 • 容器服务(ACK/ASK) • 容器镜像服务(ACR) • 服务网格(ASM) • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • • 集群扩容 • 组件升级 • … • 找出集群不正常工作的原因 : ( Kubernetes 典型异常 组件异常 • API Server Load Balancer 异常 • API Server Pod 异常 影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Server Pod Kubernetes 典型异常 网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 iptables、内核参数 • 网络链路长,手动排查成本高 异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具 自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables0 码力 | 31 页 | 9.57 MB | 1 年前3
Pod 容忍节点异常时间调整Pod 容忍节点异常时间调整 容忍节点异常时间调整 1. 原理说明 原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间,才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发⽣异常时及时将 Pod 驱逐 并在别的健康节点上重建? 要解决这个问题,我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运⾏多⻓的时间。 那么,节点发⽣异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s,Pod 对节点 NotReady 的容忍时间为 5min,也就是说,节点实际异常 5min40s(340s)后,节点上的 nodeStatusUpdateFrequency 参数(Kubelet 向主控节点汇报节点状态的时间间隔)⼤ N 倍; 这⾥ N 指的是 kubelet 发送节点状态的重试次数。 Pod 容忍节点异常时间调整 Copyright © 2012-2021 UCloud 优刻得 1/4 如需修改该参数,请逐台在三台 逐台在三台 Master 节点上 节点上进⾏如下操作: 1. 在 ControllerManager0 码力 | 4 页 | 104.64 KB | 1 年前3
机器学习课程-温州大学-09深度学习-目标检测2023年04月 深度学习-目标检测 黄海广 副教授 2 01 目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 本章目录 3 01 目标检测概述 1.目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 4 1.目标检测概述 分类(Classification) 类别的信息,用事先确定 好的类别(string)或实例ID 来描述图片。这一任务是 最简单、最基础的图像理 解任务,也是深度学习模 型最先取得突破和实现大 规模应用的任务。 检测(Detection) 分类任务关心整体,给出的 是整张图片的内容描述,而 检测则关注特定的物体目标 ,要求同时获得这一目标的 类别信息和位置信息。 分割(Segmentation) 分割包括语义分割(semantic segmentation)和实例分割( 分离开具有不同语义的图像部 分,而后者是检测任务的拓展 ,要求描述出目标的轮廓(相 比检测框更为精细)。 5 目标检测和识别 • 怎样检测和识别图 像中物体,如汽车、 牛等? 1.目标检测概述 6 目标识别的应用 1.目标检测概述 7 难点之一: 如何鲁棒识别? 1.目标检测概述 8 类内差异(intra-class variability) 1.目标检测概述 9 类间相似性(inter-class0 码力 | 43 页 | 4.12 MB | 1 年前3
《TensorFlow 2项目进阶实战》4-商品检测篇:使用RetinaNet瞄准你的货架商品商品检测篇:使用 RetinaNet 瞄准你的货架商品 扫码试看/订阅 《 TensorFlow 2项目进阶实战》视频课程 • 基础:目标检测问题定义与说明 • 基础:R-CNN系列二阶段模型综述 • 基础:YOLO系列一阶段模型概述 • 基础:RetinaNet 与 Facol Loss 带来了什么 • 应用:检测数据准备与标注 • 应用:划分检测训练集与测试集 • 应用:生成CSV 训练 RetinaNet • 应用:使用 RetinaNet 检测货架商品 • 扩展:目标检测常用数据集综述 • 扩展:目标检测更多应用场景介绍 目录 基础:目标检测问题定义与说明 目标检测问题 目标检测评估:Ground Truth 目标检测评估: Intersection over Union (IoU) 目标检测评估:Intersection over Union (IoU) Truth ??? = ???????????? ????? = Bounding Box Ground Truth 目标检测评估:准确率与召回率(以GT为中心) 目标检测评估:mean Average Precision(mAP) 基础:深度学习在目标检测的应用 目标检测近20年发展 Ref: Zou, Z., Shi, Z., Guo, Y. and Ye, J., 2019. Object0 码力 | 67 页 | 21.59 MB | 1 年前3
云原生安全威胁分析与能力建设白皮书(来源:中国联通研究院).......................................................................................50 4.1.4 安全检测............................................................................................... 52 发布的《云原生安全技术规范》中给出了云原生安全框架[6],如图 3 所示。其中,横轴是开发运营安全的维度,涉及需求设计(Plan)、开发(Dev)、 运营(Ops),细分为需求、设计、编码、测试、集成、交付、防护、检测和响 应阶段;而纵轴则是按照云原生系统和技术的层次划分,包括容器基础设施安全、 容器编排平台安全、微服务安全、服务网格安全、无服务计算安全五个部分,二 维象限中列举安全机制(蓝色标注部分)已经基本覆盖全生命周期的云原生安全 原生安全 能力。此外,DevSecOps 涉及的能力范围几乎覆盖了横轴和纵轴的各个阶段, 如图中的紫色部分。最后,云原生安全体系中还包括了一些通用技术能力(黄色 部分),这一部分能力主要体现在检测和响应阶段,并会同时覆盖 DevSecOps 中运营阶段的能力。 云原生安全威胁分析与能力建设白皮书 13 图 3 云原生安全框架 由此可见,云原生安全可以简要归纳为两个方面,一是面向云原生环境的安0 码力 | 72 页 | 2.44 MB | 1 年前3
基于Consul的多Beats接入管控与多ES搜索编排准备ES 安装Filebeat 编写Filebeat配置文件 测试并下发配置 全网重启filebeat 检测数据是否上报 传统Beats接入流程 配置更改 现网配置是否全部一致? 日志上报是否有延时? Filebeat是否资源消耗过多? Filebeat异常退出如 何处理? 如何做上报性能调优? 6 系统架构 云Kafka Api-server2 Consul • Agent监控视图 • 离线/容量/延时监控 • 分布式集群管理 • 异常快速定位 • 关联公司CMDB • 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 • 日志覆盖率 12 案例:如何管控整个日志数据流相关资源性能与容量? 资源限制 cgroup cpulimit 定时检测 kill nice值 beats优化 缓存设置 工作协程 设置 资源配额 不依赖es版本、结合cpu/mem限额配置与实时 指标采集分析 Filebeat性能调优 需要修改配置文件不断尝试 界面提交核心参数并结合延时图对比分析 Filebeat性能管控 日志量太大Cpu飙升影响业务 精准控制资源消耗防止异常减少抖动 Es写入性能调优 修改配置文件不断观察数据情况 基于ES压测报告给出专家级es参数优化建议 参数优化体验 修改配置文件、参数调优相对麻烦 全UI化、一站式处理 14 配置UI化 配置UI化开发思路0 码力 | 23 页 | 6.65 MB | 1 年前3
谭国富:深度学习在图像审核的应用或点击标签即可获取对应类别的图片。 l 图片场景识别技术 SACC2017 OCR识别 – 证件类 Ø 优图OCR识别技术支持数字识别和超过7000个常用汉字 的识别 Ø 在国际ICDAR 2015文本检测项目中刷新世界纪录 Ø 技术指标: 名片91.4%,驾驶证91.5%,行驶证85.5% Ø 应用场景:身份证、驾驶证、行驶证、营业执照、银行 卡、车牌、名片等等多个垂直场景 l 证件类OCR识别 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率 发者,开发者可以根据返回的结果信息优先给审 核人员进行审核,进行封停等进一步处理。经过 审核没有问题的内容再呈现倒观看者的屏幕。 SACC2017 从静到动:结合视频识别能力 多物体检测 监控场景人体属性 人群密度估计 监控场景人体检测 女性 青年 长发 背面 背包 灰色衣服 青色裤子 实际: 106人 预测: 113.4人 • 结合视频监控场景, 在图像序列中, 识别图 像物体,0 码力 | 32 页 | 5.17 MB | 1 年前3
⾸云容器产品Kubernetes操作指南TCP和UDP)、端⼝ 环境变量:配置所启动容器所需的环境变量(key/value的形式) 健康检查和就绪检查:⽀持健康检查(liveness)和就绪检查(Readiness)。健康检查⽤于 检测何时重启容器;就绪检查⽤于确定容器是否已经就绪,且可以接受流量。更多信息,请参 ⻅https://kubernetes.io/docs/tasks/configure-pod-container/configure-liveness- 1~65535。 HTTP 头:即 HTTPHeaders,HTTP 请求中⾃定义的请求头,HTTP 允许重复的 header。 ⽀持键值对的配置⽅式。 运⾏多久后开始检测(秒):即 initialDelaySeconds,容器启动后第⼀次执⾏检测时需要等 待多少秒,默认为 3 秒。 检查间隔(秒):即 periodSeconds,指执⾏检查的时间间隔,默认为 10 秒,最⼩为 1 秒。 不健康阈 timeoutSeconds,探测超时时间。默认 1 秒,最⼩ 1 秒。 不健康阈值:探测成功后,最少连续探测失败多少次才被认定为失败。默认是 3,最⼩值是 1。 命令⾏ 通过在容器中执⾏探针检测命令,来检测容器的健康情况。⽀持的参数包括: 命令⾏:⽤于检测容器健康情况的探测命令。 延迟探测时间(秒):即 initialDelaySeconds,容器启动后第⼀次执⾏探测时需要等待多少 秒,默认为 5秒。 执⾏探测频率(秒):即0 码力 | 94 页 | 9.98 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)全部相加除以 task 数量 ➢ IO rate std deviation:方差、反映各个 mapTask 处理的差值,越小越均衡 2)注意:如果测试过程中,出现异常 (1)可以在 yarn-site.xml 中设置虚拟内存检测为 false–大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 注意:当我们将目录设置为 COLD 并且我们未配置 ARCHIVE 存储目录的情况下,不 可以向该目录直接上传文件,会报出异常。 (2)手动转移 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs mover /hdfsdata (3)检查文件块的分布 [atguigu@hadoop102 可以采用如下方法找出是哪块磁盘慢: 1)通过心跳未联系时间。 一般出现慢磁盘现象,会影响到 DataNode 与 NameNode 之间的心跳。正常情况心跳时 间间隔是 3s。超过 3s 说明有异常。 2)fio 命令,测试磁盘的读写性能 (1)顺序读测试 [atguigu@hadoop102 ~]# sudo yum install -y fio [atguigu@hadoop102 0 码力 | 41 页 | 2.32 MB | 1 年前3
Apache RocketMQ 从入门到实战RocketMQ 核心概念扫盲篇 3. Client 消息客户端,包括 Producer(消息发送者)和 Consumer(消费消费者).客户端在同一 时间只会连接一台 nameserver,只有在连接出现异常时才会向尝试连接另外一台。客户 端每隔 30s 向 Nameserver 发起 topic 的路由信息查询。 温馨提示:Nameserver 是在内存中存储 Topic 的路由信息,持久化 Topic 。故在顺序消费的 本文来自『中间件兴趣圈』公众号,仅作技术交流,未授权任何商业行为。 1.1 RocketMQ 核心概念扫盲篇 < 16 使用过程中,应用程序需要区分系统异常、业务异常,如果是不符合业务规则导致的异常, 则重试多少次都无法消费成功,这个时候一定要告警机制,及时进行人为干预,否则消费会 积压。 三、事务消息 事务消息并不是为了解决分布式事务,而是提供消息发送与业务落库的一致性,其实现 Broker 在启动时向 Nameserver 注册存储在该服务器上的路由信息,并每隔 30s 向 Nameserver 发送心跳包,并更新路由信息。 Nameserver 每隔 10s 扫描路由表,如果检测到 Broker 服务宕机,则移除对应的路 由信息。 消息生产者每隔 30s 会从 Nameserver 重新拉取 Topic 的路由信息并更新本地路由 表;在消息发送之前,如果本地路由表中不存在对应主题的路由消息时,会主动向0 码力 | 165 页 | 12.53 MB | 1 年前3
共 146 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15













