25-云原生应用可观测性实践-向阳, Ltd. All rights reserved. 云原生应用可观测性实践 向阳 @ 云杉网络 2021-12-08 simplify the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 可观测性 - What & Why 云原生社区可观察性SIG-定义 https://i logue/definition 阿里可观测性数据引擎的技术实践 https://mp.weixin.qq.com/s/0aVgtVCmBmtAgZE_oQkcPw © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 1. 可观测性的成熟度模型 2. 构建内生的可观测性能力 3. 在混合云、边缘云中的实战 4 Ltd. All rights reserved. 可观测性的成熟度模型 1.0 基础支柱 2.0 ? 3.0 ? simplify the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 1.0 支柱:基础的可观测性要素 Metrics, tracing, and logging0 码力 | 39 页 | 8.44 MB | 6 月前3
金卫-Apache APISIX 借助 Service Mesh 实现统一技术栈的全流量管理Apache APISIX借助ServiceMesh 实现统一技术栈的全流量管理 金卫(API7 解决方案架构师) • 支流科技 - 解决方案架构师 • Apache APISIX PMC • Apache APISIX Ingress Controller Founder • Apache skywalking committer • Github: https://github.com/gxthrj 将通用能力下沉 应用专注于业务逻辑 注册发现 流量管理 可观测性 安全防护 服务网格的痛点 方案众多,各有缺陷 与基础设施整合成本高 性能损耗 资源的额外消耗 扩展难度高 理想的服务网格应该是什么样? 易于扩展 理想的服务网格 业务无感知 落地成本低 动态且增量配置 安全管控 可观测 流量精细化管理 跨集群部署 性能损耗低 资源消耗低 按需下发配置 Ingress处理南北向入口流量 APISIX Service Mesh处理东西向流量 APISIX专用插件配置等通过Amesh 下发 APISIX 全流量代理的价值 节约成本 统一技术栈 统一管理 复用技术经验 未来 结合APISIX xRPC实现 原生异构多协议支持 覆盖Istio各类场景/配置 降低用户迁移成本 Apache APISIX Ingress0 码力 | 34 页 | 3.50 MB | 6 月前3
23-云原生观察性、自动化交付和 IaC 等之道-高磊把自己关在小黑 屋里面,自己就 可以自助的从API 使用角度定义、 驱动研发、发布 或者实施与自己 APP的集成。 • API作为产品,可 以给订阅、可以 被交易。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 内用于度量的 KPI数值 Tracing 通过TraceId来 数据之间存在很多关联,通过 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维 监控告警 分布式跟踪链0 码力 | 24 页 | 5.96 MB | 6 月前3
Service Mesh 在『路口』的产品思考与实践每次升级都要重新发布应用 业务进程专注于业务逻辑 SDK 中的大部分功能, 拆解为独立进程, 以 Sidecar 的模式运行 将服务治理能力下沉到基础设施,实现独立演进,透明升级7/39 异构系统统一治理 Part 1: 为什么需要Service Mesh? 多语言、多协议 图片来源:https://www.redhat.com/en/topics/microservices/what-is-a-service-mesh 在当下『路口』的思考 • 大量的应用还跑在非 k8s 体系上(VM、独立的注册中心等) • 当下这些 brownfield 应用的业务价值往往更大,如何把它们纳入 Service Mesh 统一管控? 现实场景 – Brownfield 应用当道 图片来源:https://medium.com/next-level-german-engineering/comparison-of- 流量劫持22/39 Part 3: 蚂蚁金服的产品实践 流量劫持 • 有效支撑了一天万亿级调用量 • iptables 的问题 • 在规则配置较多时,性能下滑严重 • 管控性和可观测性不好23/39 Part 3: 蚂蚁金服的产品实践 平滑迁移 初始状态24/39 Part 3: 蚂蚁金服的产品实践 平滑迁移 透明迁移调用方25/39 Part 3:0 码力 | 40 页 | 15.86 MB | 6 月前3
TiDB v8.5 中文手册的核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、 �→ 语义搜索、推荐系统等多种场景。 40数据库管理和可观测性 在内存表中显示 �→ TiKV 和 TiDB 的 CPU 时间 将 CPU 时间合入系统表中展示,与会话或 SQL 的其他指标并列,方便你从多角度对高 CPU �→ 消耗的操作进行观测,提升诊断效率。尤其适用于诊断实例 CPU 飙升或集群读写热点等场景。 0 码力 | 5095 页 | 104.54 MB | 10 月前 353
TiDB v8.4 中文手册的核心功能之一,向量搜索可用于检索增强生成 (Retrieval-Augmented Generation, RAG)、 �→ 语义搜索、推荐系统等多种场景。数据库管理和可观测性 在内存表中显示 �→ TiKV 和 TiDB 的 CPU 时间 将 CPU 时间合入系统表中展示,与会话或 SQL 的其他指标并列,方便你从多角度对高 CPU �→ 消耗的操作进行观测,提升诊断效率。尤其适用于诊断实例 CPU 飙升或集群读写热点等场景。 0 码力 | 5072 页 | 104.05 MB | 10 月前 3
TiDB v8.2 中文手册TiDB �→ 实例启动缓慢的问题,同时也能提升统计信息动态加载的成功率, �→ 从而减少由于统计信息加载失败造成的性能回退,提升集群的稳定性。数据库管理与可观测性 �→ 为切换资源组引入权限控制 及之后版本的集群维持原行为不变。通过设置新增变量tidb_ �→ resource_control_strict_mode 为 ON,来开启上述的增强权限控制。 更多信息,请参考用户文档。 2.2.1.6 可观测性 • 记录执行计划没有被缓存的原因 #50618 @qw4990 在一些场景下,用户希望多数执行计划能够被缓存,以节省执行开销,并降低延迟。目前执行计划缓存 对 SQL 有一定限制,部分形态 SQL 5.0 引入了系统变量tidb_enable_async_merge_global_stats,用于设置 TiDB 使用异步方 式合并分区统计信息,以避免 OOM 问题。在未来版本中,分区统计信息将统一使用异步方式进行 合并,系统变量tidb_enable_async_merge_global_stats 将被废弃。 – 计划在后续版本重新设计执行计划绑定的自动演进,相关的变量和行为会发生变化。0 码力 | 4987 页 | 102.91 MB | 10 月前3
金融级云原生 PaaS 探索与实践Server 基础发布运维 跨集群应用 资源管理 IaaS层(Aliyun/OpenStack/VMWare/Bare Metal) PaaS 核心层 核 心 流 程 两地三中心架构 跨机房和地域统一应用运维 容器运行时 (Docker/Pouch/安全容器) CNI Plugins (VLAN/VXLAN/VPC Router/ENI) CSI Plugins (NAS/OSS/Cloud 业务架构 产品层 云原生 PaaS 产品架构方案 7/209/20 二、多集群管控 多集群管控10/20 为什么要有集群联邦 • 异构屏蔽: 底层集群变化; • 统一管控: 业务弹性建站管控统一; • 可扩展: 多租硬隔离; 体量(单集群内节点数 1w+,Pod 10w+),集群数量多; 多集群管控11/20 多集群管控 联邦核心能力 • 跨集群资源同步 跨集群发现12/20 联邦架构 • 关系型存储; 数据量 容灾 • 基于部署单元分发 多集群管控13/20 三、发布运维体系 发布运维体系14/20 应用管理&交付 • 基于统一管控背景下的 Dockerfile 管理和生成; • 基于组件关联的 FedAppInstance + revision 版本控制; • 快速构建能力 - binary2Image 能力; 发布运维体系15/200 码力 | 20 页 | 1.71 MB | 6 月前3
36-云原生监控体系建设-秦晓辉•要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机器、交换机、中间件的监控,每个监控对象一个标识即可,没有维度的设计 micrometer • 埋点方案尽量要全公司一套,规范统一,在代码框架层面内置,减轻各个研发团队的使用成本 Pod内的业务应用的监控 - statsd 数据流向 • 推荐做法:如果是容器环境,Pod 内 sidecar 的方式部署 statsd;如果是物理机虚拟机环境,每个机器上部署一 个 statsd 的 agent,接收到数据之后统一推给服务端 Pod-001 业务 容器 agent 能用指标解决的尽量就用指标 解决,不要用日志 • 如果是从第三方采购的产品, 我们也尽量要求供应商统一暴 露 prometheus 接口,也别去 处理日志 业务应用依赖的中间件 的监控 业务应用依赖的中间件的监控 • 典型的监控方案分3类,一类是 sidecar 方式,一类是动态改配置,最后一类是中心端统一采集 • sidecar 方式:中间件部署在容器里,比如 zookeeper 或 rabbitmq,直接暴露了0 码力 | 32 页 | 3.27 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊失。企业管理者终于意识到,云计算供 应商锁定会阻碍多云方法所带来的创造力、可用性和流动性。 • 云原生PaaS可以屏蔽多云的差异, 统一的不分何种云上的一致的运行 同一服务或者应用。 • 避免厂家锁定,客户可以自由选择 资源分布和费用组合,更加灵活。 • 中心云统一纳管运维和输出服务。 • 是一种以资源视角的云交付形式, 不同于混合云,底层云的资源使用 地位等同。 AWS Aliyun Azure • 企业IT文化、工作流程、知识体系、工具集的总合升级 • 应用架构升级 • re-platform • re-build • re-host • 运维模式升级 • 从传统面向操作规则的运维转变为面向观测数据的自动化运维 • 重新定义软件交付模式 • 整体打包交付 • Git=Single Version Of Truth • 声明式API • 尽量采用OpenAPI作为系统集成胶水 • 重塑研发流水线 大规模集群支撑集团“双十 一”,日交易额2684亿元 2 0 1 9 T4项目启动,容器调度技 术开始支撑集团的在线业 务,云原生时代开启 2 0 1 1 在线和离线调度系统打通混合 部署,底层资源池统一,支撑 百万级电商交易活动。 云原生技术全面商业化,容器 技术对外开放 2 0 1 7 云原生技术全面升级,阿 里巴巴原生用云, Serverless时代开始。 2 0 2 00 码力 | 20 页 | 5.17 MB | 6 月前3
共 91 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













