异常检测 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

B站统⼀监控系统的设计,演进与实践分享

e{}[1h], 3 * 3600) < 0 异常检测异常流量量 abs(requests - requests:holt_winters_rate1h offset 7d) > 0.3 * requests:holt_winters_rate1h offset 7d 告警规则: 预测业务A请求量量异常异常响应 todo • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析针对历史事件针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩 - ( ゜- ゜)つロ乾杯~ - bilibili

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

<60，所以如果所有机器的内存可用率都很高，比如维持在80~90，那这个promql是不会返回查询结果的，此时监控系统就认为一切正常。如果返回了结果，比如上例中返回了3条结果，告警引擎就会认为有异常产生，生成3个告警事件。当然，有的时候，偶尔一次触发了阈值我们认为不算啥事，希望连续触发多次才告警，此时就要使用 prometheus alerting rule 的 for 关键字，或者夜莺中的持续时长的配置，表示在一个时对于一个服务部署多个实例的场景，通常这多个实例是负载均衡的，查看其中一个实例的分位值和查看总体的分位值理论上差不太多。而且，如果某个机器有问题，比如某个机器磁盘故障，导致部署在上面的实例异常，延迟变高，其他实例都是正常的，全局查看延迟数据的时候，每个实例是一条曲线，那个故障的机器，对应的曲线应该是恰好严重偏离其他曲线，正好可以借机知道具体是哪个实例/机器出了问题。 _over_time

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 2 条前往

页

监控系统设计演进实践分享 PromQL Prometheus

分类

语言

格式

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

分类

语言

格式

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享