降级预案在同程艺龙的工程实践-王俊翔统⼀一资源⽹网关 搜索引擎 API⽹网关 ⼤大量量请求超时 缺乏熔断设计 交易易故障 第三⽅方⽀支付 ⽀支付中⼼心 ⽀支付回写 消息队列列 ⽀支付通知 交易易中台 ⽀支付时限任务 出票处理理 队列列故障 已⽀支付订单被取消 ⽀支付超时 订单取消 缺乏降级设计 稳定性之路路到底有多远 如何设计⾯面向容错的系统,如何提升系统的可⽤用性 强弱依赖 • 弱依赖 - 熔断限流,有损服务 数据采集、计算、存储 指标(HBase) 指标明细(ES) 降级⽇日志(ES) ETL 指标计算(Flink) 脚本引擎 查 询 服 务 ⽇日志数据 指标(Redis) 业务异常数据快照(ES) 熔断降级通知 降级服务管理理 故障代码注⼊入 降级服务注册设计 serviceA serviceB serviceC etcd register service metadata ⽇日志 ⽂文件 应⽤用数据采集 应⽤用数据 ⽅方法数据 执⾏行行结果 执⾏行行耗时 异常数据 … JVM内存 JVM线程 GC数据 业务数据 SDK数据 ⾃自定义数据 系统数据采集 容器器数据 CPU数据 内存数据 磁盘数据 … ⽹网络数据 采集 Agen t ⽇日志中⼼心 KAFKA 数据处理理 通过本地⽇日志⽂文件,实时采集降级服务质量量数据 ⽇日志 ⽂文件 系统数据采集0 码力 | 26 页 | 18.67 MB | 1 年前3
 声明式自愈系统——高可用分布式系统的设计之道-王昕Ø 高可用系统的最佳实践总结 无状态分布式系统的高可用问题 处理消息的服务节点可以随机选择 不必处理数据复制和同步的问题 系统容量和高可用能力可以同步提升 服务节点可以随意迁移,不必固定 IP 和存储 有状态分布式系统的高可用问题 一致性 可用性 分区容错性 Paxos Raft 2PC Gossip Ø 处理请求需要特定节点 Ø 必须要考虑数据备份和同步 的问题 Ø 容量扩展和高可用需要不同 Controller观察特定领域的 系统状态 Ø 协调Desired State跟 Realized State之间的差 距,维持最终一致性 Ø 定期处理集群中的事件 Ø 系统必须是幂等的 控制器的设计理念 控制逻辑应该只依赖于当前状态 假设任何错误的可能,并做容错处理 尽量避免复杂状态机,逻辑不要依赖无法监控的内部状 态 每个模块都可以在必要时优雅地降级服务 每个模块都可以在出错后自动恢复 假 正确性 分布式系统中有哪些异常情况需要模拟? 运行时可能出现的异常 Applications Runtimes Middleware OS Virtualization Storage Networking Data 启动异常 进程被杀 服务器假死 断电 启动异常 超卖 进程死锁 负载均衡失效 业务线程池满 监控错误 流控不合理 心跳异常 缓存热点 缓存限流 数据库热点0 码力 | 44 页 | 2.47 MB | 1 年前3
 付钱拉金融云系统架构演进和最佳实践BATTLE Nginx keepalived Tomcat Tomcat Oracle Oracle Nginx keepalived 数据库双机 网络分发层 业务处理 渠道适配器 交易预处理 交易预检查 交易风控 交易路由 通知 响应 查询 通道 交易拆分 业务2.0痛点 BUSINESS 2.0 PAIN POINTS 业务野蛮发展 交易量高速增加 定时器触发批扣打包 UI触发批扣打包 正在发送 第三方 失败 成功 三方已受理 部分成功 (批量交易) 订单失败 (网关交易) 接入网关 交易检查 服务路由 批量任务 通道适配 响应处理 交易检查成功 定时器触发批付打包 UI触发批付打包 有限状态机 FINITE STATE MACHINE BEST PRACTICE BEST PRACTICE - HOW TO FIND 服务监控 业务监控 中间件、接口探测、日志抓取 状态类(响应码、交易状态、退款状态、商户状态) 耗时类(交易总时长、分段时长、SQL耗时、代码耗时) 统计类(订单量异常预警、非法IP预警、交易额过大) 网络异常(单通道和多通道、不同的分布场景) 撒网与实时监控 REAL-TIME MONITORING 可视化运营 VISUAL OPERATION 优先恢复 蓝绿部署 提前准备0 码力 | 35 页 | 6.05 MB | 1 年前3
 领域驱动设计&中台/架构分层模型适配灵活易易使⽤用的API 技术点: 性能,事务,分布式,安全等⾮非功能性需求 API服务 ⼯工作内容: • 接收外部请求并响应: 如HTTP请求, 消息处理理 • 事务管理理 • 认证 • 缓存 • ⽇日志 • 异常处理理 • 配置 • Session 技术⼈人员关注的层 腐化案例例: ⼤大量量业务逻辑堆积 模型: • View Object • Resource 学习和使⽤用外部系统,如数据库,邮件系统 • 适配外部系统模型,如SQL映射到模型对象 技术⼈人员关注的层 基础设施 腐化案例例: 业务逻辑和外部调⽤用逻辑混合 如⼀一个⽅方法⾥里里即处理理业务逻辑⼜又调⽤用SQL 模型内容: • PO • 第三⽅方Protobuffer • 第三⽅方SDK DDD分层参考架构 — Java技术视⻆角 前端应⽤用 API服务 业务领域 API Data Transfer Object 分层模型适配实例例 架构治理理中的踢正步 ⽤用户账户注册和激活 案例例-⽤用户注册和激活 填写注册信息 HTTP POST 注册信息 处理理注册信息 保存注册信息 发送注册激活码 填写激活码 HTTP POST 激活码 验证激活码 保存激活信息 案例例-⽤用户注册 -1 前端应⽤用 API服务 业务领域 基础设施0 码力 | 39 页 | 2.54 MB | 1 年前3
 海量用户推送后台系统架构实践-曾振波• IDC数据同步 • 异步RPC • ICE - 负载均衡,AMI,AMD,多线程 极光推送后台系统架构 02 并行化 • 横向扩展处理能力 • 数据分片存储 • 多节点+分片+多副本架构 • 数据读写动态路由 • 请求并行处理 • 模块级别并行 • 代码级别并行 极光推送后台系统架构 03 MQ Segment OnlineMsg OnlineMsg OnlineMsg OnlineMsg Data0-0 Data0-1 Data1-0 Data1-1 Data2-0 Data2-1 Mng0 Mng2 Mng3 缓存化 • 热点数据全部缓存 • 加快数据访问,减少请求处理时间 • 多级缓存 • 本地缓存 • Redis, Couchbase, LevelDB(PIKA), 定制化 极光推送后台系统架构 04 程序及系统优化 • 内存 • 静态分配 • MQ IDC6 Conn 系统安全 • 网络安全 • 对外业务隔离,异地多机房部署,健康检查,业务快速部署及调度 • 通信安全 • SSL,私有加密协议 • 服务安全 • 安全校验,异常行为识别,过载保护,白名单/黑名单,服务降级 • 监控及告警 • 多维度监控,告警系统 极光推送后台系统架构 08 K8S部署业务 • 原有系统的运维工作繁杂,资源利用率低 • 弹性扩容0 码力 | 23 页 | 1.26 MB | 1 年前3
 从百度文件系统看大型分布式系统设计中的定式与创新搭建一个1万台服务器的系统 - 每一两天就坏一个 • 典型数据中心 - 过热:5分钟内数千台机器宕机 - 供电异常: 500~1000台机器突然消失 - 机架晃动: 几十台机器出现50%丢包 - 交换机故障: 几十台机器突然消失 - 磁盘、单机故障 • 通过冗余应对故障 一个典型的数据处理场景 数据处理模块 数据接收模块 存储 主 从 从 1. 写入 2. 通知 3. 读取 多副本冗余 一致性问题 一致性问题 • 怎么定义写成功 - 3副本成功, 影响可用性 • 可以读从节点 - 刚写入的读不到 - 不一致 • 只允许读主节点 - 扩展性受限 数据处理模块 数据接收模块 存储 主 从 从 1. 写入 2. 通知 3. 读取 CAP理论 • 简要历史 - Eric Brewer 1998年提出 - 2002年证明 • CAP三选二 - Consistency 一致性0 码力 | 24 页 | 937.45 KB | 1 年前3
 QCon北京2018-业务高速发展下的互联网金融系统架构演变-张现双+极大消除冗余,三级两层划分 底层服务有序汇总直面前端 流量统一出口 积分系统 优惠券 基金服务 保险服务 理财服务 支付中心 电子签章 第三方系统 营销支持 基础服务 数据支持 批处理 … 网关(略) 移动基础服务 消息 监控 配置 报警 金融产品 Yiri 财富圈 首页 feed 活动中心 微信 WAP 4G 积分商城 ... ... 账户中心 迅速响应业务变化 Kafka Kafka Spout 策略 Cache 系统配置 预处理bolts Data Filter 规范化 校验 监控核心流水线bolts RBAC User Role 策略发生器 异 步 线 程 分 发 分布式队列(报警系统) 合并降级 报警队列 活动监控 活动队列 报警策略 系统异常 基础策略 监控统计 业务节点 业务数据 业务数据统计 监控 数据流0 码力 | 42 页 | 19.96 MB | 1 年前3
 美团点评旅游推荐系统的演进•用户画像 •上下文 •POI ID&属性 滑雪 age<25 User 25-40 age>40 … 温泉 POI 数据标注 特征工程 特征工程 •特征预处理 •missing value:不需要处理 •position bias:COEC •One-Hot Encoding?周几/小时/city id •Normalize? •召回策略特征化 •销量拆分本异地 •GeoHash热销 •POI CF •特征选择 •特征在每棵树每个节点的信息增益之和 特征工程 •特征分析 •分本异地统计转化率、销量 •天气 •特征监控 •覆盖率 •值域范围 •分布异常 特征 coverRatio numValid 参考值 监控值 波动率 参考值 监控值 波动率 CLICKNET 0.931341 0.481258 0.483263 3271405 17457540 码力 | 49 页 | 5.97 MB | 1 年前3
 《58到家技术架构快速规划与落地》 - 沈剑(1)路径规范 (2)日志分级 (3)日志切分 (4)易扩展的配置 日志关键字监控Tips (1)异常关键字 (2)正常关键字 (3)易扩展的配置 58集团技术专场 2. 监控平台-接口 Keepalive统一监控 (1)框架统一实现 (2)中心统一调度 处理时间统一监控 (1)框架统一实现 (2)本地初步汇总 (3)日志收集/udp上报 http接口统一监控0 码力 | 42 页 | 1.52 MB | 1 年前3
 苏宁易购小程序架构实践 苏宁 禹立彬• 30+ Components 同步组件 • data转换为state • 样式重新解析 • Element转换 Babel转换代码 异常监控 • 业务异常监控 - 自研 • 系统异常监控 - 微信官方后台 运营埋点 • PV UV • 访问链路 • 转化率 3 小程序业务组件 CONTENTS • 使用原生的方式开发,没有使用wepy等框架0 码力 | 36 页 | 833.39 KB | 1 年前3
共 26 条
- 1
 - 2
 - 3
 













