1.6 利用夜莺扩展能力打造全方位监控系统
利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 端上、链路、资源、组件、应用多维度跨云监控 端上 卡顿 崩溃 链路 连通性 链路质量 服务端 硬件资源 组件服务 业务应用 夜莺介绍:国产开源监控系统 第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falc 众多企业已上生产,共同打磨夜莺 上图展示部分社区用户,加入夜莺社群,请联系微信:UlricQin Nightingale 众多企业已上生产,共同打磨夜莺 Server01 Server02 Agentd Agentd LoadBalance 1. 单机版Prom 2. 集群版m3db 3. 集群版n9e-tsdb 3种存储方案,按需选择 Agentd 夜莺设计实现 Agentd0 码力 | 40 页 | 3.85 MB | 1 年前3Flashcat 让监控分析变简单,Flashcat产品技术交流
Flashcat 产品技术交流 让监控分析变简单 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 由知名开源项⽬“夜莺”的核⼼开发团队组成: 夜莺是⼀款开源云原⽣监控⼯具,是中国计算机学会接受捐赠并托管的 第⼀个开源项⽬,在GitHub上有超过8500颗星,上百位社区贡献者, 上万家企业⽤户,是国内领先的开源可观测性解决⽅案。 隐患的⻔ 店? p 如何让总部 IT 先于⻔店发现故障? 解决⽅案: Flashcat 连锁⻔店集中监控⽅案,基于All-in-One 的开源采集器Categraf,加上业界领先的开源监控 夜莺(Nightingale),集中化的监控所有的⻔店, 并采⽤数据驱动的理念,对所有的⻔店 IT 健康状态 进⾏科学的量化,真正做到先于⻔店发现问题,及 时⾼效治理有IT 隐患的⻔店。 ü 层0 码力 | 43 页 | 6.54 MB | 1 年前3PromQL 从入门到精通
常产生,生成3个告警事件。 当然,有的时候,偶尔一次触发了阈值我们认为不算啥事,希望连续触发多次才告警,此时就要 使用 prometheus alerting rule 的 for 关键字,或者夜莺中的持续时长的配置,表示在一个时 间范围内多次执行,每次都触发了才告警。 像上例触发了3个告警事件,如果后面继续周期性使用promql查询查不到数据了,就说明最新 的mem_available 为 pull 不到数据 了,就知道 target 挂了,通过 up 指标就可以告警;对于推模式的监控系统,比如 Open- Falcon、Datadog、Nightingale,就不好搞了。所以夜莺的告警规则里专门做了一个机器 告警类型,用于机器失联告警。 increase 这个函数很常用,但是其计算结果可能会出乎意料,这一节详细讲解,打消各位的疑问。字面意 思上,表示求取一个增量,接收一个0 码力 | 16 页 | 2.77 MB | 1 年前3
共 3 条
- 1