异常检测 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Kubernetes 异常配置检测框架

顾静, 阿里云邓隽, 阿里云 Kubernetes 异常配置检测框架我们来自阿里云容器服务 • 顾静，研发工程师 • 邓隽，技术专家我们参与打造 • 容器服务（ACK/ASK） • 容器镜像服务（ACR） • 服务网格（ASM） • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • • 集群扩容 • 组件升级 • … • 找出集群不正常工作的原因 : ( Kubernetes 典型异常组件异常 • API Server Load Balancer 异常 • API Server Pod 异常影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Server Pod Kubernetes 典型异常网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改 iptables、内核参数 • 网络链路长，手动排查成本高异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables

0 码力 | 31 页 | 9.57 MB | 1 年前
3
Pod 容忍节点异常时间调整

Pod 容忍节点异常时间调整容忍节点异常时间调整 1. 原理说明原理说明 Kubernetes 集群节点处于异常状态之后需要有⼀个等待时间，才会对节点上的 Pod 进⾏驱逐。那么针对部分关键业务，是否可以调整这个时间，便于在节点发⽣异常时及时将 Pod 驱逐并在别的健康节点上重建？要解决这个问题，我们⾸先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。在 Kubernetes 参数，指定当节点出现异常（如 NotReady）时 Pod 还将在这个节点上运⾏多⻓的时间。那么，节点发⽣异常到 Pod 被驱逐的时间，就取决于两个参数：1. 节点实际异常到被判断为不健康的时间；2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s，Pod 对节点 NotReady 的容忍时间为 5min，也就是说，节点实际异常 5min40s（340s）后，节点上的 nodeStatusUpdateFrequency 参数（Kubelet 向主控节点汇报节点状态的时间间隔）⼤ N 倍；这⾥ N 指的是 kubelet 发送节点状态的重试次数。 Pod 容忍节点异常时间调整 Copyright © 2012-2021 UCloud 优刻得 1/4 如需修改该参数，请逐台在三台逐台在三台 Master 节点上节点上进⾏如下操作： 1. 在 ControllerManager

0 码力 | 4 页 | 104.64 KB | 1 年前
3
机器学习课程-温州大学-09深度学习-目标检测

2023年04月深度学习-目标检测黄海广副教授 2 01 目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法本章目录 3 01 目标检测概述 1.目标检测概述 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 4 1.目标检测概述分类（Classification）类别的信息，用事先确定好的类别(string)或实例ID 来描述图片。这一任务是最简单、最基础的图像理解任务，也是深度学习模型最先取得突破和实现大规模应用的任务。检测（Detection）分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息。分割（Segmentation）分割包括语义分割（semantic segmentation）和实例分割（分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。 5 目标检测和识别 • 怎样检测和识别图像中物体，如汽车、牛等？ 1.目标检测概述 6 目标识别的应用 1.目标检测概述 7 难点之一: 如何鲁棒识别？ 1.目标检测概述 8 类内差异（intra-class variability） 1.目标检测概述 9 类间相似性（inter-class

0 码力 | 43 页 | 4.12 MB | 1 年前
3
《TensorFlow 2项目进阶实战》4-商品检测篇：使用RetinaNet瞄准你的货架商品

商品检测篇：使用 RetinaNet 瞄准你的货架商品扫码试看/订阅《 TensorFlow 2项目进阶实战》视频课程 • 基础：目标检测问题定义与说明 • 基础：R-CNN系列二阶段模型综述 • 基础：YOLO系列一阶段模型概述 • 基础：RetinaNet 与 Facol Loss 带来了什么 • 应用：检测数据准备与标注 • 应用：划分检测训练集与测试集 • 应用：生成CSV 训练 RetinaNet • 应用：使用 RetinaNet 检测货架商品 • 扩展：目标检测常用数据集综述 • 扩展：目标检测更多应用场景介绍目录基础：目标检测问题定义与说明目标检测问题目标检测评估：Ground Truth 目标检测评估： Intersection over Union (IoU) 目标检测评估：Intersection over Union (IoU) Truth ??? = ???????????? ????? = Bounding Box Ground Truth 目标检测评估：准确率与召回率（以GT为中心）目标检测评估：mean Average Precision（mAP）基础：深度学习在目标检测的应用目标检测近20年发展 Ref: Zou, Z., Shi, Z., Guo, Y. and Ye, J., 2019. Object

0 码力 | 67 页 | 21.59 MB | 1 年前
3
云原生安全威胁分析与能力建设白皮书(来源：中国联通研究院)

.......................................................................................50 4.1.4 安全检测............................................................................................... 52 发布的《云原生安全技术规范》中给出了云原生安全框架[6]，如图 3 所示。其中，横轴是开发运营安全的维度，涉及需求设计（Plan）、开发（Dev）、运营（Ops）,细分为需求、设计、编码、测试、集成、交付、防护、检测和响应阶段；而纵轴则是按照云原生系统和技术的层次划分，包括容器基础设施安全、容器编排平台安全、微服务安全、服务网格安全、无服务计算安全五个部分，二维象限中列举安全机制（蓝色标注部分）已经基本覆盖全生命周期的云原生安全原生安全能力。此外，DevSecOps 涉及的能力范围几乎覆盖了横轴和纵轴的各个阶段，如图中的紫色部分。最后，云原生安全体系中还包括了一些通用技术能力（黄色部分），这一部分能力主要体现在检测和响应阶段，并会同时覆盖 DevSecOps 中运营阶段的能力。云原生安全威胁分析与能力建设白皮书 13 图 3 云原生安全框架由此可见，云原生安全可以简要归纳为两个方面，一是面向云原生环境的安

0 码力 | 72 页 | 2.44 MB | 1 年前
3
基于Consul的多Beats接入管控与多ES搜索编排

准备ES 安装Filebeat 编写Filebeat配置文件测试并下发配置全网重启filebeat 检测数据是否上报传统Beats接入流程配置更改现网配置是否全部一致？日志上报是否有延时？ Filebeat是否资源消耗过多？ Filebeat异常退出如何处理？如何做上报性能调优？ 6 系统架构云Kafka Api-server2 Consul • Agent监控视图 • 离线/容量/延时监控 • 分布式集群管理 • 异常快速定位 • 关联公司CMDB • 资源权限管理 • 配置灰度控制发布 • 配置一致性检测 • 日志覆盖率 12 案例:如何管控整个日志数据流相关资源性能与容量？资源限制 cgroup cpulimit 定时检测 kill nice值 beats优化缓存设置工作协程设置资源配额不依赖es版本、结合cpu/mem限额配置与实时指标采集分析 Filebeat性能调优需要修改配置文件不断尝试界面提交核心参数并结合延时图对比分析 Filebeat性能管控日志量太大Cpu飙升影响业务精准控制资源消耗防止异常减少抖动 Es写入性能调优修改配置文件不断观察数据情况基于ES压测报告给出专家级es参数优化建议参数优化体验修改配置文件、参数调优相对麻烦全UI化、一站式处理 14 配置UI化配置UI化开发思路

0 码力 | 23 页 | 6.65 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

或点击标签即可获取对应类别的图片。 l 图片场景识别技术 SACC2017 OCR识别 – 证件类 Ø 优图OCR识别技术支持数字识别和超过7000个常用汉字的识别 Ø 在国际ICDAR 2015文本检测项目中刷新世界纪录 Ø 技术指标：名片91.4%，驾驶证91.5%，行驶证85.5% Ø 应用场景：身份证、驾驶证、行驶证、营业执照、银行卡、车牌、名片等等多个垂直场景 l 证件类OCR识别冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率发者，开发者可以根据返回的结果信息优先给审核人员进行审核，进行封停等进一步处理。经过审核没有问题的内容再呈现倒观看者的屏幕。 SACC2017 从静到动：结合视频识别能力多物体检测监控场景人体属性人群密度估计监控场景人体检测女性青年长发背面背包灰色衣服青色裤子实际： 106人预测： 113.4人 • 结合视频监控场景，在图像序列中，识别图像物体，

0 码力 | 32 页 | 5.17 MB | 1 年前
3
⾸云容器产品Kubernetes操作指南

TCP和UDP）、端⼝环境变量：配置所启动容器所需的环境变量（key/value的形式）健康检查和就绪检查：⽀持健康检查（liveness）和就绪检查（Readiness）。健康检查⽤于检测何时重启容器；就绪检查⽤于确定容器是否已经就绪，且可以接受流量。更多信息，请参⻅https://kubernetes.io/docs/tasks/configure-pod-container/configure-liveness- 1~65535。 HTTP 头：即 HTTPHeaders，HTTP 请求中⾃定义的请求头，HTTP 允许重复的 header。⽀持键值对的配置⽅式。运⾏多久后开始检测（秒）：即 initialDelaySeconds，容器启动后第⼀次执⾏检测时需要等待多少秒，默认为 3 秒。检查间隔（秒）：即 periodSeconds，指执⾏检查的时间间隔，默认为 10 秒，最⼩为 1 秒。不健康阈 timeoutSeconds，探测超时时间。默认 1 秒，最⼩ 1 秒。不健康阈值：探测成功后，最少连续探测失败多少次才被认定为失败。默认是 3，最⼩值是 1。命令⾏通过在容器中执⾏探针检测命令，来检测容器的健康情况。⽀持的参数包括：命令⾏：⽤于检测容器健康情况的探测命令。延迟探测时间（秒）：即 initialDelaySeconds，容器启动后第⼀次执⾏探测时需要等待多少秒，默认为 5秒。执⾏探测频率（秒）：即

0 码力 | 94 页 | 9.98 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

全部相加除以 task 数量 ➢ IO rate std deviation:方差、反映各个 mapTask 处理的差值，越小越均衡 2）注意：如果测试过程中，出现异常（1）可以在 yarn-site.xml 中设置虚拟内存检测为 false –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网注意：当我们将目录设置为 COLD 并且我们未配置 ARCHIVE 存储目录的情况下，不可以向该目录直接上传文件，会报出异常。（2）手动转移 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs mover /hdfsdata （3）检查文件块的分布 [atguigu@hadoop102 可以采用如下方法找出是哪块磁盘慢： 1）通过心跳未联系时间。一般出现慢磁盘现象，会影响到 DataNode 与 NameNode 之间的心跳。正常情况心跳时间间隔是 3s。超过 3s 说明有异常。 2）fio 命令，测试磁盘的读写性能（1）顺序读测试 [atguigu@hadoop102 ~]# sudo yum install -y fio [atguigu@hadoop102

0 码力 | 41 页 | 2.32 MB | 1 年前
3
Apache RocketMQ 从入门到实战

RocketMQ 核心概念扫盲篇 3. Client 消息客户端，包括 Producer(消息发送者)和 Consumer(消费消费者)．客户端在同一时间只会连接一台 nameserver，只有在连接出现异常时才会向尝试连接另外一台。客户端每隔 30s 向 Nameserver 发起 topic 的路由信息查询。温馨提示：Nameserver 是在内存中存储 Topic 的路由信息，持久化 Topic 。故在顺序消费的本文来自『中间件兴趣圈』公众号，仅作技术交流，未授权任何商业行为。 1.1 RocketMQ 核心概念扫盲篇 < 16 使用过程中，应用程序需要区分系统异常、业务异常，如果是不符合业务规则导致的异常，则重试多少次都无法消费成功，这个时候一定要告警机制，及时进行人为干预，否则消费会积压。三、事务消息事务消息并不是为了解决分布式事务，而是提供消息发送与业务落库的一致性，其实现 Broker 在启动时向 Nameserver 注册存储在该服务器上的路由信息，并每隔 30s 向 Nameserver 发送心跳包，并更新路由信息。 Nameserver 每隔 10s 扫描路由表，如果检测到 Broker 服务宕机，则移除对应的路由信息。消息生产者每隔 30s 会从 Nameserver 重新拉取 Topic 的路由信息并更新本地路由表；在消息发送之前，如果本地路由表中不存在对应主题的路由消息时，会主动向

0 码力 | 165 页 | 12.53 MB | 1 年前
3

共 146 条前往

页

分类

语言

格式

Kubernetes 异常配置检测框架

Pod 容忍节点异常时间调整

机器学习课程-温州大学-09深度学习-目标检测

《TensorFlow 2项目进阶实战》4-商品检测篇：使用RetinaNet瞄准你的货架商品

云原生安全威胁分析与能力建设白皮书(来源：中国联通研究院)

基于Consul的多Beats接入管控与多ES搜索编排

谭国富：深度学习在图像审核的应用

⾸云容器产品Kubernetes操作指南

尚硅谷大数据技术之Hadoop（生产调优手册）

Apache RocketMQ 从入门到实战