积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部后端开发(61)云计算&大数据(37)系统运维(33)区块链(31)数据库(24)TiDB(16)Go(11)综合其他(10)Kubernetes(10)Linux(9)

语言

全部中文(简体)(162)英语(4)

格式

全部PDF文档 PDF(147)其他文档 其他(18)DOC文档 DOC(1)PPT文档 PPT(1)
 
本次搜索耗时 0.062 秒,为您找到相关结果约 167 个.
  • 全部
  • 后端开发
  • 云计算&大数据
  • 系统运维
  • 区块链
  • 数据库
  • TiDB
  • Go
  • 综合其他
  • Kubernetes
  • Linux
  • 全部
  • 中文(简体)
  • 英语
  • 全部
  • PDF文档 PDF
  • 其他文档 其他
  • DOC文档 DOC
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 告警OnCall事件中心建设方法白皮书

    监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个: ● 告警太多,打扰太多 ● ● 告警疏漏,无法闭环 我们先来看第一个痛点,首先分析一下造成告警太多、打扰太多的原因是什么,然后针对原因提出对应的 方案。 告警太多的常见原因 最常见的原因,是告警规则设置得不合理。比如很多规则触发了告警之后,实际没有后续动作,只是起到 常态化通知的效果,不需要排查,也不需要止损,甚至连个长线的 TODO 都没有。这类告警多了人就疲 了,当重要的告警来临的时候,也
    0 码力 | 23 页 | 1.75 MB | 1 年前
    3
  • pdf文档 B站统⼀监控系统的设计,演进 与实践分享

    技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取
 监控⽬目标
 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取
 监控⽬目标
 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本
    0 码力 | 34 页 | 650.25 KB | 1 年前
    3
  • pdf文档 Flashcat 让监控分析变简单,Flashcat产品技术交流

    采⽤插件化思路,内置集成上百种采集插件,服务器、⽹络设备、中间件、数据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, ,云上云下,均可监控; • 汇聚领域最佳实践,开箱即⽤; INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 内置仪表盘模板和告警模板 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Categraf 增强功能 INTERNAL OR RESTRICTED RESERVED © 北京快猫星云科技有限公司 统⼀的仪表盘 统一告警 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 统⼀告警 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 智能告警 告警太多,怎么办? INTERNAL OR RESTRICTED
    0 码力 | 43 页 | 6.54 MB | 1 年前
    3
  • pdf文档 PromQL 从入门到精通

    运算符 PromQL 支持基本的算术运算符和比较运算符,可以对不同的即时向量做运算,这为监控系统 带来了巨大的进步,算术运算符让很多计算不需要在采集端做了,可以轻易挪到服务端,而比较 运算符则为告警逻辑提供了支撑。 算术运算符  + (addition)  - (subtraction)  * (multiplication)  / (division)  % (modulo) 如上的方法,其实就是告警引擎的核心逻辑。告警规则里会要求用户配置promql以及执行频 率,告警引擎就会根据执行频率周期性执行,每次执行的时候就是拿着promql去查询,promql 中带有阈值,即上例中的 <60,所以如果所有机器的内存可用率都很高,比如维持在80~90, 那这个promql是不会返回查询结果的,此时监控系统就认为一切正常。如果返回了结果,比如 上例中返回了3条结果,告警引擎就会认为有异常产生,生成3个告警事件。 上例中返回了3条结果,告警引擎就会认为有异常产生,生成3个告警事件。 当然,有的时候,偶尔一次触发了阈值我们认为不算啥事,希望连续触发多次才告警,此时就要 使用 prometheus alerting rule 的 for 关键字,或者夜莺中的持续时长的配置,表示在一个时 间范围内多次执行,每次都触发了才告警。 像上例触发了3个告警事件,如果后面继续周期性使用promql查询查不到数据了,就说明最新 的mem_availa
    0 码力 | 16 页 | 2.77 MB | 1 年前
    3
  • pdf文档 分布式NewSQL数据库TiDB

    UCloud 优刻得 5/120 85 86 86 88 93 93 95 96 99 100 100 101 103 103 104 105 105 105 105 105 参数列表 告警通知 告警通知 创建告警模板 绑定资源 SSL 证书管理 证书管理 进⼊管理⻚⾯ 添加 SSL 证书 证书格式 开启 SSL 配置 关闭 SSL 配置 删除 SSL 证书 查看证书详情 安全组 安全组 查看安全组 计费说明 计费指南 回收 操作指南 TiDB 实例 ⽤⼾ 备份恢复 Dashboard/监控访问 TiDB Serverless 实例 ⽤⼾ Binlog同步 TiFlash管理 备份恢复 参数配置调整 告警通知 证书管理 数据库审计 安全组 数据迁移 性能数据 概览 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 9/120 FAQ 概览 分布式NewSQL数据库 优刻得 85/120 告警通知 告警通知 创建告警模板 创建告警模板 进⼊ 资源监控UMon - 告警模板:https://console.ucloud.cn/umon/template 创建模板 选择 分布式NewSQL数据库 告警通知 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 86/120 添加需要告警的监控项,设置阈值并点击左上⻆
    0 码力 | 120 页 | 7.42 MB | 5 月前
    3
  • pdf文档 基于 APM 的智能运维体系在京东物流的落地和实践-付正全

    ◼低资源使用率TOP统计 ◼低负载应用榜单 ◼低资源使用率应用优化建议 多维度使用率分析助力企业降本增效 使用率报表 大规模实时监控平台V2.0 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确 ◼更全面评估应用健康状况 大规模实时监控平台V2.0 整合各种应用维度的指标分析,提供更全面的应用数据分析和故障诊断 ◼系统指标 ◼调用链指标 ◼日志分析 ◼数据库指标 决; 4. 报警收敛:对告警做告警筛选、过滤、合并操作,大大减少报警数量; 故障快照 ◼出现告警自动抓取现场快照信息 ◼快照信息持久化保存 ◼根据自学习的知识库提供异常原因分析 ◼集成Arthas诊断工具,快速诊断问题 根因分析 基于双向过滤的告警通知 恢复 轻度 中度 严重 过 滤 通知处理引擎 过 滤 高级通知策略 方法告警 日志告警 资产 资产 资产 邮件 邮件 短信 咚咚 微信 调用链告警 业务告警 业务告警 每天 每月 每周 自定义 时间规则 ◼为保证告警信息能够及时准确的传达给系 统管理员,监控模块需要实现灵活的告警通 知策略 ◼双重过滤的通知方式:资源和通知联系人 分别应用通知策略,实现对通知的双重安全 过滤 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案
    0 码力 | 41 页 | 3.52 MB | 1 年前
    3
  • pdf文档 2.2.1通过Golang+eBPF实现无侵入应用可观测

    运行情况,进一步提升问题定位能力,通常在已经定位到某个异常节点后使用。 实例 全栈数据源,70+个告警模板开箱即用: 应用级别:Pod/Service/Deployment K8S控制面:apiserver/ETCD/Scheduler 基础设施:节点、网络、存储 云服务界别:Kafka/MySQL/Redis/ 告警 拓扑图排查 根因定位 修复 告警收敛,幸福感UP 指标 日志 Trace分析 黄金指标 网络指标 服务依赖 面向失败、高可用设计 优化告警 主动发现 智能降噪、去重 系统性解决 系统性解决 关闭 智能告警 全栈数据源,70+个告警模板开箱即用: 应用级别:Pod/Service/Deployment K8S控制面:apiserver/ETCD/Scheduler 基础设施:节点、网络、存储 云服务界别:Kafka/MySQL/Redis/ 告警 拓扑图排查 根因定位 修复 告警收敛,幸福感UP 告警收敛,幸福感UP 指标 日志 Trace分析 黄金指标 网络指标 服务依赖 事后复盘 拓扑图高可用、依赖分 析 面向失败、高可用设计 优化告警 主动发现 智能降噪、去重 系统性解决 系统性解决 关闭 智能告警 eBPF + Golang 在阿里云应用可观测的实践 更标准 更稳定 无侵入 异常监控 持续剖析 what’s new: 应用监控eBPF版 • eBPF Agent性能提升20%
    0 码力 | 29 页 | 3.83 MB | 1 年前
    3
  • pdf文档 微服务和Service Mesh 在多个行业落地实践

    均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 APM (应用运行期监控) 运行时 拓扑 性能 监控 服务 筛选 调用 链 调用 栈 JVM 监控 数据库 监控 性能 告警 自定义 数据 服务 告警 监控 大屏 账户 审计 CICD (开发流程管理) 代 码 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 注册,发现,调用都提供鉴权 认证鉴权 接口文档统一维护 文档与运行时一致 减少调用沟通成本 知识库 根据平台、租户、项目三个层次区分权限作用域 (服务治理) 服务 目录 注册 发现 限流 熔断 降级 容错 路由 负载 均衡 参数 分流 拓扑 依赖 配置 中心 服务 监控 服务 告警 认证 鉴权 统计 概览 知识 库 服务 告警 监控 大屏 账户 审计 粒度更细:可指定服务版本,类,方法级别 配置灵活:可配置检测粒度为每M毫秒N个请求P%的错误率 指标多样:RT值,错误率,线程池参数
    0 码力 | 39 页 | 3.06 MB | 1 年前
    3
  • pdf文档 高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏

    关闭故障 大区入口 新机程序 布署 大区服务 重启 测试验证 故障机回 收 故障 替换 业务配置 文件修改 对外开放 选择发布 范围 备份业务 程序&数 据 屏蔽监控 告警 关闭游戏 入口 更新程序 包 更新数据 库 启动游戏 进程 版本 发布 停游戏进 程 测试验证 对外开放 蓝鲸作业平台 蓝鲸进化第2步:场景与原子的分离 API Gateway 蓝鲸进化第3步:平台化开发模式让运维应用自生长 传统开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 基于PaaS的开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 运维开发 负责企业技术运营领域(CI、CD、CO)相关场景的系统构建,例如持续集成、日志分析、资 源管理、版 容器管理 文件传输 指令执行 预发布环境 更新 生产环境 发布 发布系统 实时计算 离线计算 数据采集 数据存储 监控曲线 展示 智能告警 监控系统 Jenkins 版本仓库 报表编辑器 BI引擎 版本管理 配置存取 告警策略 管理 发送短信 数据存储 版本 视图 自助 发布 临时 活动 流程 系统 老板 视图 配置 刷新 周报 邮件 业务 门户 ...
    0 码力 | 26 页 | 8.25 MB | 1 年前
    3
  • pdf文档 Nacos架构&原理

    客户端基于当前可用的长链接进行配置的查询,发布,删除,监听,取消监听等配置领域的 R PC 语意接口通信。 ○ 感知配置变更消息,需要将配置变更消息通知推送当前监听的客户端;网络不稳定时,客户端 接收失败,需要支持重推,并告警。 ○ 感知客户端连接断开事件,将连接注销,并且清空连接对应的上下文,比如监听信息上下文清 理。  Server 之间通信 ○ 单个 Server 需要获取到集群的所有 Server 间的列表,并且为每⼀个 五、基于长链接的⼀致性模型 1. 配置⼀致性模型 sdk-server ⼀致性 53 > Nacos 架构 server 间⼀致性 Server 间同步消息接收处理轻量级实现,重试失败时,监控告警。 断网:断网太久,重试任务队列爆满时,无剔除策略。 2. 服务⼀致性模型 Nacos 架构 < 54 sdk-server 间⼀致性 server 间⼀致性 55 > Nacos 架构 体应用架构中所有服务都共用节点底层资源,⼀般来说只需关注这些节点的状态指标即可;相反在 微服务场景中,服务分布在各处,我们不仅要关注节点的资源使用状况,而且对各个服务的连接数、 请求数、成功率设置告警规则,以便在服务不可用之前能够及时发现问题,增强整个系统的稳定性 建设。 151 > Nacos 生态 在业务系统中必然存在⼀些敏感的服务,这些服务通常会涉及到交易以及用户敏感数据的变化,因
    0 码力 | 326 页 | 12.83 MB | 9 月前
    3
共 167 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 17
前往
页
相关搜索词
告警OnCall事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享Flashcat分析简单产品技术交流PromQLPrometheus分布布式分布式NewSQL数据据库数据库TiDB基于APM智能运维体系京东物流落地付正全2.2通过GolangeBPF实现侵入应用观测架构刘超高效社区沙龙29蓝鲸研发PaaS张敏Nacos原理
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩