告警OnCall事件中心建设方法白皮书监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个: ● 告警太多,打扰太多 ● ● 告警疏漏,无法闭环 我们先来看第一个痛点,首先分析一下造成告警太多、打扰太多的原因是什么,然后针对原因提出对应的 方案。 告警太多的常见原因 最常见的原因,是告警规则设置得不合理。比如很多规则触发了告警之后,实际没有后续动作,只是起到 常态化通知的效果,不需要排查,也不需要止损,甚至连个长线的 TODO 都没有。这类告警多了人就疲 了,当重要的告警来临的时候,也0 码力 | 23 页 | 1.75 MB | 1 年前3
统一建模语言 UML 参考手册 - 基本概念统一建模语言参考手册 统一建模语言参考手册 统一建模语言参考手册 统一建模语言参考手册� 基本概念 基本概念 基本概念 基本概念� � 翻译 Adams Wang ���� �������� ��������� ��������� ���������� ������� � James Rumbaugh Ivar Jacobson Grady Booch � 译者序 译者序 译者序 译者序 译者序� 统一建模语言 ��� 是一种直观化 明确化 构建和文档化软件系统产物的通用可视 化建模语言 ��� 由面向对象领域的三位大师 ������ ����� ���� �������� 和 ����� �������� 于 ���� 年发布 并提交给 ��� ��� 于 �� 月为 ��� 所采用 现已成为业界 标准 � 本文讲述了 ��� 基本概念 为 ��� 的深入理解提供一个起点 ������������ � � ��� 简述 简述 简述 简述� 统一建模语言 ��� 是一种直观化 明确化 构建和文档化软件系统产物的通用可视 化建模语言 它捕捉了被构建系统的有关决策和理解 用来理解 设计 浏览 配置 维 护以及控制系统的信息 ��� 可以与所有的开发方法 生命阶段 应用领域和媒介一同使 用 它意图统一过去建模技术的经验 将当前软件最佳实践合并至标准的方法 ��� 包括 语义概念0 码力 | 123 页 | 2.61 MB | 1 年前3
构建统一的云原生应用 可观测性数据平台All rights reserved. 构建统一的云原生应用 可观测性数据平台 DeepFlow在混合云中的实践总结 向阳@云杉网络 2022-04-09 1. 可观测性数据平台的挑战 2. 解决数据孤岛:AutoTagging 3. 降低资源开销:MultistageCodec 4. 统一数据平台的落地思路及案例 构建统一的云原生应用可观测性数据平台 看云网更清晰 Simplify complexity. 统一的可观测性数据平台 telegraf 看云网更清晰 Simplify the growing complexity. 挑战:数据孤岛、资源开销 数据 孤岛 资源消耗 telegraf 1. 可观测性数据平台的挑战 2. 解决数据孤岛:AutoTagging 3. 降低资源开销:MultistageCodec 4. 统一数据平台的落地思路及案例 构建统一的云原生应用可观测性数据平台 构建统一的云原生应用可观测性数据平台 看云网更清晰 Simplify the growing complexity. OpenTelemetry的方法 统一的上下文 以追踪为核心 看云网更清晰 Simplify the growing complexity. OpenTelemetry的方法 Tag, Exemplars (TraceID, SpanID) Tag, TraceID, SpanID TraceID0 码力 | 35 页 | 6.75 MB | 1 年前3
金卫-Apache APISIX 借助 Service Mesh 实现统一技术栈的全流量管理Apache APISIX借助ServiceMesh 实现统一技术栈的全流量管理 金卫(API7 解决方案架构师) • 支流科技 - 解决方案架构师 • Apache APISIX PMC • Apache APISIX Ingress Controller Founder • Apache skywalking committer • Github: https://github.com/gxthrj Ingress处理南北向入口流量 APISIX Service Mesh处理东西向流量 APISIX专用插件配置等通过Amesh 下发 APISIX 全流量代理的价值 节约成本 统一技术栈 统一管理 复用技术经验 未来 结合APISIX xRPC实现 原生异构多协议支持 覆盖Istio各类场景/配置 降低用户迁移成本 Apache APISIX Ingress0 码力 | 34 页 | 3.50 MB | 6 月前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏关闭故障 大区入口 新机程序 布署 大区服务 重启 测试验证 故障机回 收 故障 替换 业务配置 文件修改 对外开放 选择发布 范围 备份业务 程序&数 据 屏蔽监控 告警 关闭游戏 入口 更新程序 包 更新数据 库 启动游戏 进程 版本 发布 停游戏进 程 测试验证 对外开放 蓝鲸作业平台 蓝鲸进化第2步:场景与原子的分离 API Gateway Gateway(统一接入) aPaaS(集成平台):开发框架(前后端)+工具流水线+运行环境托管 蓝鲸进化第3步:平台化开发模式让运维应用自生长 传统开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 基于PaaS的开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 容器管理 文件传输 指令执行 预发布环境 更新 生产环境 发布 发布系统 实时计算 离线计算 数据采集 数据存储 监控曲线 展示 智能告警 监控系统 Jenkins 版本仓库 报表编辑器 BI引擎 版本管理 配置存取 告警策略 管理 发送短信 数据存储 版本 视图 自助 发布 临时 活动 流程 系统 老板 视图 配置 刷新 周报 邮件 业务 门户 ...0 码力 | 26 页 | 8.25 MB | 1 年前3
微服务和Service Mesh 在多个行业落地实践微服务和Service Mesh 在多个行业落地实践 www.163yun.com 阶段一:单体架构群,多个开发组,统一运维组 www.163yun.com 阶段二:组织服务化,架构SOA化,基础设施云化 www.163yun.com 阶段三:组织DevOps化,架构微服务化,基础设施容器化 www.163yun.com Hailo Amazon Netflix 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 APM (应用运行期监控) 运行时 拓扑 性能 监控 服务 筛选 调用 链 调用 栈 JVM 监控 数据库 监控 性能 告警 自定义 数据 服务 告警 监控 大屏 账户 审计 CICD (开发流程管理) 代 码 分布式事务 服务治理 全链路压测 性能监控 注册发现 服务管理 www.163yun.com ZIP源码包 持续集成 重新开发 迭代修改 个性开发 统一模版 接口统一 利于复用 文档一致 减少沟通 某视频监控企业:IT资产沉淀与IT能力复用 持续集成 容器化 注册发现 服务管理 www.163yun.com 开发集群0 码力 | 39 页 | 3.06 MB | 1 年前3
DaoCloud Enterprise 5.0
产品介绍这些模块就像乐高搭积木一样,糅合社区最优秀的几十种开源技术,经过众多 辩证选型、攻坚克难、编码调试、海量测试,“十年磨一剑,一朝试锋芒,全新 搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 台、云原生网络、云原生存储 可观测性 基于日志、链路、指标、eBPF 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud ](community/kubean.md)、信创 中间件、云原生网络、云原生存储 云边协同 将云原生能力延伸至边缘,采用边缘集群、边缘节点模式,将数据中心算力下移,端 设备算力上移,统一管控和调度离散、异构的计算资源,解决在海量边、端设备上统 一完成大规模应用交付、运维、管控的诉求,实现云边的真正一体化。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、云边协同 版权0 码力 | 18 页 | 1.32 MB | 1 年前3
美团点评2018技术年货行监控,其主要监控两个指标:运营位数及每个运营位的配置总数。这样做可以带来以下几个好处: 1. 对接入的业务数及机器数进行统计。 2. 通过SDK的配置总数监控,防止数量超过最大限制。 同时,对于非SDK的其他性能指标,我们采用统一的监控平台– CAT 进行监控,其中包括:APPKIT中 心服务的调用QPS,机器的性能,网络流量等通用指标。 五、底层模型–灵活性设计 五、底层模型–灵活性设计 5.1 从一个例子切入 5 当accessTime时间超过24小时,说明这个运营位在一 天内都没有使用,可以从本地内存中进行删除。其二为SDK定期进行监控上报,上报SDK本地缓存的数 目,这样可以对SDK本地缓存进行监控和告警。对SDK版本升级问题,现有的解决方案,是通过CI构建时 对SDK版本升级进行提示(必要时进行强制),不过大部分运营位使用的都是基础功能,在很大程度上不 需要进行频繁地升级。 效果对比 效果对比 美团点评基础架构部希望在基础存储、高性能通信、大规模在线访问、服务治理、实时监控、容器化及集 群智能调度等领域提供业界领先的、统一的解决方案,CAT 目前在美团点评的产品定位是应用层的统一 监控组件,在中间件(RPC、数据库、缓存、MQ 等)框架中得到广泛应用,为各业务线提供系统的性能 指标、健康状况、实时告警等服务。 本文会对 CAT 的客户端、性能等做详细深入的介绍,前不久我们也发过一篇 CAT 相关的文章,里面详0 码力 | 229 页 | 61.61 MB | 1 年前3
Flashcat 让监控分析变简单,Flashcat产品技术交流采⽤插件化思路,内置集成上百种采集插件,服务器、⽹络设备、中间件、数据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视⻆的驾驶舱,也提供层层下钻的故障定位能⼒,有效缩短故障发现和定位 时间。 统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One 的数据采集器 Categraf • 是⼀款 All-in-One 的开源的 telemetry 数据采集器,⽀持指标、⽇志采集; ,云上云下,均可监控; • 汇聚领域最佳实践,开箱即⽤; INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 内置仪表盘模板和告警模板 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Categraf 增强功能 INTERNAL OR RESTRICTED0 码力 | 43 页 | 6.54 MB | 1 年前3
2022年美团技术年货 合辑以看到,YOLOv6 在不同分辨率下,仍然保持较大的性能优势。 2. YOLOv6 关键技术介绍 YOLOv6 主要在 BackBone、Neck、Head 以及训练策略等方面进行了诸多的 改进: ● 我们统一设计了更高效的 Backbone 和 Neck :受到硬件感知神经网络设计 思想的启发,基于 RepVGG style[4] 设计了可重参数化、更高效的骨干网络 EfficientRep Backbone 万个订单行为,涉及 20 万个用户,2.9 万个商家,17.9 万个菜品,订单关联菜品数据共 438 万条,构成 知识图谱。使用 Hitrate@5 作为评价指标。 数据预处理阶段:进行特征分类、异常值处理、统一编码等操作。主要涉及用户(用 户画像特征等)、商家(品类、评分、品牌等)、菜品(口味、价格、食材等)三种实体 数据及点击、购买(LBS、价格、时间等)两类交互数据,对原始数据进行特征分类、 数据编码、缺失值处理等常见预处理操作。 (3)与业务系统无缝对接。 图神经网络的完整落地流程至少包括:基于业务数据构图、离线训练和评测模型、线 上推理、业务指标观测等步骤。要让图神经网络技术成功落地应用,需要充分理解业 务逻辑和业务需求,统一并高效地管理业务场景。同样以美食推荐场景为例,线上日 志记录了曝光、点击、下单等行为事件,知识图谱提供了商家和菜品丰富的属性数 据,如何从这些异质的数据构造图,要结合业务实际多次实验确定。合适的工具能提0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 723 条
- 1
- 2
- 3
- 4
- 5
- 6
- 73













