基于open-falcon的平安云监控基于open-falcon的 平安云监控 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 团队介绍 Ø 平安云IAAS团队 Ø 负责平安集团IAAS平台建设 Ø 为平安集团内部其他子公司服务 Ø 打造对外的金融云服务 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 背景 Ø 应对云主机快速增长 Ø 打造用户自助服务的监控平台 Ø 适应内部的三级网络架构 背景 云管区 公共服务区 可用区 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 系统定位 Ø 保证基础监控,提供监控通道 Ø 要求高可用、高可扩展 Ø 分离用户、平台管理员 保证告警覆盖率,按类型初始化通用告警策略 Ø 兼顾通用的和个性的监控要求 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 argus是什么 Ø 是平安云监控系统 Ø 希腊神话里的百眼巨人 Ø 基平open-falcon开发的平安云监控系统 Ø 是一个Go语言实现的项目 目录 Ø0 码力 | 30 页 | 10.40 MB | 1 年前3
1.每秒百万数据点 Go 应用监控系统演进每秒百万数据点 Go 应用监控系统演进 张平 AfterShip 高级 SRE 关于 AfterShip 拥抱云原生和开源系统 目 录 监控架构概览 01 如何监控 Go 应用? 02 Metrics 系统架构演进 03 Why VictoriaMetrics so good? 04 总结与展望 05 监控架构概览 第一部分 监控系统架构概览 -- 数据源 监控系统架构概览 -- -- 告警配置 监控系统架构概览 -- 告警通道 如何监控 Go 应用? 第二部分 基于 Prometheus Go 应用监控接入流程 确定指标 为应用埋点 部署应用 配置服务发现 监控展示 指标类型 ● Go 运行时指标 ○ Goroutine 数量 ● 应用层指标 ○ infra_http_request_total ● 业务指标 ○ 总 Tracking 查询量 ○0 码力 | 42 页 | 2.32 MB | 1 年前3
基于Go的大数据平台-党合萱server注册每⼀一个任务,防⽌止任务被重复执⾏行行 • server⾼高可⽤用,节点故障时任务会被调度到其他正常节点 简单 · 可信赖 server⾼高可⽤用 • server注册⾃自身,防⽌止单机重复运⾏行行 • server注册每⼀一个任务,防⽌止任务被重复执⾏行行 • server⾼高可⽤用,节点故障时任务会被调度到其他正常节点 简单 · 可信赖 ⽔水平扩展 • 资源不不⾜足时加⼊入新的机器器作为新server 可信赖 调度框架 • server感知 • 任务发现及粒度切分 • 数据平滑 • 调度组 • 管理理接⼝口 简单 · 可信赖 调度算法 简单 · 可信赖 ⾃自动化运维 简单 · 可信赖 监控⽅方案 • logkit:七⽜牛pandora团队开发的纯go语⾔言数据收集、推 送⼯工具,⽀支持多种数据源,⾼高效易易⽤用 • 时序数据库(TSDB):兼容influxdb,适配grafana 简单 · 可信赖 线上系统现状 • 每⽇日处理理超过千亿数据点 • 每⽇日处理理百TB级别的数据量量 • 线上导出延迟在1分钟以内 • 较少的⼈人⼯工介⼊入 • 秒级扩容 • 实时的可视化监控系统 • 易易⽤用的报警系统 • ⾃自动⽣生成线上⽇日报 简单 · 可信赖 Go的应⽤用 我们⽤用Golang做了了些什什么 • 流式计算、离线计算、⽇日志检索、时序数据库等⼀一整套服务的核⼼心代码都使⽤用0 码力 | 34 页 | 1.26 MB | 1 年前3
Go可观测性实践什么是可观测性? 可观测性开源产品 每种方案都有特定的、自定义的 步骤来生产和转移符合后端存储 的遥测(Telemetry)数据,这就带 来了工具或者厂商的绑定性。 为了解决“厂商锁定问题”,监控和可观测性社区过去创建了很多开源项 目,比如OpenTracing和OpenCensus,这些标准允许用户实时收集遥测 数据并传输到所选择的后端,最终在2019年,两个组织共同组建OTel项目, 第二部分 无所不在的部署 持续监控 低消耗 应用级透明 延展性 链路追踪设计目标 链路追踪 Dapper 每个请求都生成一个全局唯一的 traceid,端到端透传到上下游所有节点,每一层生成一个 spanid, 通过traceid 将不同系统孤立的调用日志和异常信息串联一起,通过 spanid 和 parentid 表达节点 的父子关系 链路追踪 在分布式系统 链路追踪分析 指标 第二部分 Counter Gauge Histogram 指标数据类型 Counter Counter 类型代表一种样本数据单调递增的指标,即只增不减,除非监控系统发生了重置。例如,你 可以使用 counter 类型的指标来表示服务的请求数、已完成的任务数、错误发生的次数等。 Gauge Gauge 类型代表一种样本数据可以任意变化的指标,即可增可减。Gauge0 码力 | 35 页 | 2.88 MB | 1 年前3
大规模高性能区块链架构设计模式与测试框架-李世敬参与者都可在其中写入、读取、 参与交易验证。 仅在机构内使用,读写权,记账 权由组织内自由定制。中心控制 者制定可参与和进行交易验证成 员范围。 联盟链仅限于联盟成员参与,系 统内交易确认节点为事先设定, 并通过共识机制确认。 『非许可链』公有链 私有链『许可链』 联盟链『许可链』 区块链发展的主力军 不同的组织形态分别对应不同的“区块链产品架构” 11 趣链科技 版权所有 ©2016-2021 司法存证 供应链⾦融 智慧政务 物联⽹ 能源电⼒ 跨境贸易 ⼯业物联⽹ 智慧城市 ... 不同于完全开放、任何⼈可以加⼊退出的⾮许可链,许可链架构与其差异性在于节点和⽤户在区块链⽹络中的准 ⼊要求。且⾮许可链⽹络节点⼤都由业务相关的机构组成,造成架构上共识、合约、安全、权限等⽅⾯的不同 13 趣链科技 版权所有 ©2016-2021 13 趣链科技 版权所有 ©2016-2021 13 司法存证 供应链⾦融 智慧政务 物联⽹ 能源电⼒ 跨境贸易 ⼯业物联⽹ 智慧城市 ... 不同于完全开放、任何⼈可以加⼊退出的⾮许可链,许可链架构与其差异性在于节点和⽤户在区块链⽹络中的准 ⼊要求。且⾮许可链⽹络节点⼤都由业务相关的机构组成,造成架构上共识、合约、安全、权限等⽅⾯的不同 �可�架构 大规模高性能区块链架构设计介绍 15 趣链科技 版权所有 ©2016-2021 ⼤�模⾼性能区��架构⾯�的��0 码力 | 39 页 | 56.58 MB | 1 年前3
1.5 Go 语言构建高并发分布式系统实践go语⾔言在基础服务开发领域的优势? 我遭遇了哪些挑战? ⺫⽬目录 具有go特⾊色的运维 go语⾔言原⽣生提供的各组⼯工具,构建分布式系统配套设施⽅方⾯面,提供了 便利 配套设施= 测试 + 调优 + 监控 + 运维 便利 = 原⽣生profiling⼯工具 + 开协程模拟测试终端+协程协作模拟业务 go语⾔言运维管理⽅方⾯面的独特魅⼒力…… 具有go语⾔言特⾊色的运维 Æ 通信库状态可视化 Æ 最接近业务场景的百万级别压测后台 架构迭代 所有实例组通信数据监控 性能监控与调优 架构迭代 压测平台 拆分多实例 l 缓解GC压⼒力(gc时间减少40%) 按业务类型聚类,⼲ per + deployd)/ (Keeper + Agent) 对各节点进⾏行管理 l 监控集群 l 控制组件⾏行为(⽤用户重定向) l 连接监控 push 具有go语⾔言特⾊色的运维: 配置管理 具有go语⾔言特⾊色的运维 Æ 配置⽂文件管理与监控 后台->⽣生成配置⽂文件->全部服务器->调⽤用deployd接⼝口,重启或者reload0 码力 | 39 页 | 5.23 MB | 1 年前3
2.7 Golang与高性能DSP竞价系统⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved 简单监控接⼝口: GO 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved 简单监控接⼝口 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Right Reserved • 最终在Client端实现 • ⼀一致性hash: github.com/stathat/consistent • 预先开启⾜足够多的Redis实例,预防增加节点带来的数据 迁移⿇麻烦 Redis集群 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved 专业DSP解决⽅方案 ReservedAll Right Reserved • 采⽤用SSD来存储(Intel S3500,SATA⼝口) • 数据在SSD中,索引在内存中(1G内存索引16M记录) • 10个节点,replication-factor: 1,写⼀一份到Ardb做备份 • 官⽅方提供Go的Client • 线上半年⽆无故障 CookieMapping: Aerospike 专业DSP解决⽅方案0 码力 | 51 页 | 5.09 MB | 1 年前3
3.云原生边云协同AI框架实践行人识别 worker Sedna Lib Object Detection Sedna Lib ① 部署在不同边缘节点的多个摄像头,可以 提供不同视角、不同时间、不同光照的多 维度信息,以提升整体识别准确度。 ② 运行在不同边缘节点的AI算法可以灵活资源 卸载,包括卸载到其他边缘或云端,以提升 整体推理效率。 多边协同推理: 联合多边缘信息提升精度,卸载任务到多边缘提升资源利用率 com/articles/2021/06/22/kubernetes-operators-101-part-2-how-operators-work 为什么使用Operator? • Kubernetes生态系统 比如监控、日志、Dashboard等 • Kubernetes集群基础能力 比如自动化安装、配置、更新等。 • Kubernetes API 避免了重复开发资源的增删改查等框架代码 如何打造一个Operator interface{}) error { // 获取到对应的数据集指定的节点(Dataset CRD对象中有一个字段记录了Node名称) ds, err := c.client.Datasets(job.Namespace).Get(context.TODO(), dataName, metav1.GetOptions{}) // 获取到训练、评估、部署对应的节点名称 getAnnotationsNodeName :=0 码力 | 37 页 | 2.36 MB | 1 年前3
Golang大规模云原生应用管理实践组件 日志 指标 容量 服务 依赖 路由规则 持久卷 部署策略 健康检查 … 灰度 发布 定时弹性 事件 指标弹性 分批发布 重启 回滚 日志管理 事件中心 指标监控 存储挂载 服务绑定 手动弹性 回退历史 负载均衡 报警 诊断 组件管理 服务治理 … 权限 K8s Istio Envoy Tekton Argo KEDA ES • 认知成本高:K8s功能强大却没有统一的使用方式,不得不学习复杂的声明字段和各种奇怪的Annotation; • 稳定性不足:没有设置Pod的QoS等级,导致频繁被驱逐,没有设置反亲和性策略,导致节点流量不均; • 扩展效率低:需要负责安装,升级丰富的云原生插件,无法解决插件的依赖,冲突和资源浪费问题; • 运维成本高:Apiserver, etcd, Controller-Manager, 云原生PaaS平台 8 9 8 9 向下设计平台策略与机制融入云原生生态 向上提供应用管理策略与机制使用平台 插入:K8s核心机制-声明式资源与控制器 控制器 期望状态 被控制系统 管控动作 监控状态 apiVersion: apps/v1 kind: Deployment metadata: name: nginx-deployment labels: app: nginx0 码力 | 23 页 | 7.70 MB | 1 年前3
2.5 Go在猎豹移动的应用服务应该是无状态的; api服务出现瓶颈的时候,直接scale out; graceful restart依赖健康检测; api质量监控,使用日志来追踪,通过本 地日志+flume+hdfs+hive; 实时监控可以考虑flume sink到kafka,再 依赖Spark计算; RPC 协议&远程调用的选型; net/rpc,thrift,grpc等; 阶段1:逐idc,逐机器配置修改; 阶段2:svn统一提交修改,每个idc一份; 阶段3:配置统一管理化(agent模型); 一处修改,统一管理; 节点状态查看、回滚配置; 数据安全、强一致性; goconf /config/ | service/ | idc1/ | current/(0 码力 | 24 页 | 4.26 MB | 1 年前3
共 49 条
- 1
- 2
- 3
- 4
- 5













