降级预案在同程艺龙的工程实践-王俊翔## 降级预案在同程艺龙的工程实践 演讲者 / 王俊翔 同程艺龙 ## TGO鲲鹏会 汇聚全球科技领导者的高端社群 全球12大城市 850+高端科技领导者 使命 Mission 为社会输送更多优秀的 科技领导者 ## 愿景 Vision 构建全球领先的有技术背景 优秀人才的学习成长平台  ## 业务保障平台建设之路 和可用性保障措施 ## 策略管理 - 降级策略集中管理,通过参数化、配置化、脚本化方式实现线上策略的灵活调整 ## 预案制定 - 依据服务重要程度,从全局制定分级预案,对降级点进行预案编排,并跟踪监控降级链路的执行 ## 线上演练 - 发现潜在故障,多维度验证预案有效性,评估系统可靠性,提供降级策略、参数调整的优化依据 ## 整体架构 KAFKA 日志数据 Attach ETL0 码力 | 26 页 | 18.67 MB | 2 年前3
人工智能安全治理框架 1.0实《全球人工智能治理倡议》,遵循“以人为本、智能向善”的发展方向,为推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方,就人工智能安全治理达成共识、协调一致,有效防范化解人工智能安全风险,制定本框架。 ### 1. 人工智能安全治理原则 秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促进人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点,构建各方 统进行登记备案,要求其具备在设计、研发、测试、部署、使用、维护等全生命周期的安全防护能力。 5.2 建立人工智能服务可追溯管理制度。对面向公众服务的人工智能系统,通过数字证书技术对其进行标识管理。制定出台人工智能生成合成内容标识标准规范,明确显式、隐式等标识要求,全面覆盖制作源头、传播路径、分发渠道等关键环节,便于用户识别判断信息来源及真实性。 5.3 完善人工智能数据安全和个人信息保护规范。针 具体操作指南和最佳实践,持续推进人工智能设计、研发、应用的价值观、伦理观对齐。探索适应人工智能时代的版权保护和开发利用制度,持续推进高质量基础语料库和数据集建设,为人工智能安全发展提供优质营养供给。制定人工智能伦理审查准则、规范和指南,完善伦理审查制度。 5.5 强化人工智能供应链安全保障。推动共享人工智能知识成果,开源人工智能技术,共同研发人工智能芯片、框架、软件,引导产业界建立开放生态,增强0 码力 | 20 页 | 3.79 MB | 9 月前3
DeepSeek从入门到精通(20250204)细化提示:“选择优先级最高的子任务,将其进一步细化为2—3个具体的行动项或小目标。” 4. 连接提示:“分析各个子任务之间的关系,确定它们如何相互支持和影响,以及如何共同推进总体目标的实现。” 5. 时序提示:“为每个子任务制定一个粗略的时间表,考虑它们的依赖关系和完成所需的相对时间。” 6. 资源分配提示:“评估每个子任务的复杂度,分配1—10的‘注意力分数’,指导在执行过程中如何分配计算资源。” 7. 适应提示:“ 识别关键概念:确定需要详细阐述的核心想法 2. 设计细节矩阵:为每个关键概念创建多维度的细节要求 3. 构建微观-宏观桥接:设计连接具体事例和抽象概念的提示 4. 创建感官描述指南:为抽象概念设计具体的感官描述要求 5. 制定数据展示策略:规划如何将数据转化为生动的叙述或可视化形式 ## 跨域映射机制(CMM):激发创新思维 CMM的理论基础: CMM的理论基础借鉴了认知语言学中的概念隐喻理论和认知科学中的类比推理方法论: 源域:游戏设计 关键知识:游戏化机制、玩家心理学、关卡设计、即时反馈系统 2. 寻找源域:搜索可能包含相关知识或方法的其他领域 4. 相似性分析:分析源域和目标域之间的结构相似性 5. 转移策略设计:制定知识从源域到目标域的转移策略 6. 构建转移提示:创建引导AI进行知识转移的提示语 - 进度可视化 成就系统 • 社交互动 个性化挑战 • 即时反馈 (4) 相似性分析: • 游戏玩家<->学生0 码力 | 104 页 | 5.37 MB | 1 年前3
清华大学 DeepSeek 从入门到精通细化提示:“选择优先级最高的子任务,将其进一步细化为2—3个具体的行动项或小目标。” 4. 连接提示:“分析各个子任务之间的关系,确定它们如何相互支持和影响,以及如何共同推进总体目标的实现。” 5. 时序提示:“为每个子任务制定一个粗略的时间表,考虑它们的依赖关系和完成所需的相对时间。” 6. 资源分配提示:“评估每个子任务的复杂度,分配1—10的‘注意力分数’,指导在执行过程中如何分配计算资源。” 7. 适应提示:“ 识别关键概念:确定需要详细阐述的核心想法 2. 设计细节矩阵:为每个关键概念创建多维度的细节要求 3. 构建微观-宏观桥接:设计连接具体事例和抽象概念的提示 4. 创建感官描述指南:为抽象概念设计具体的感官描述要求 5. 制定数据展示策略:规划如何将数据转化为生动的叙述或可视化形式 ## 跨域映射机制(CMM):激发创新思维 CMM的理论基础: CMM的理论基础借鉴了认知语言学中的概念隐喻理论和认知科学中的类比推理方法论: 定义问题:明确目标领域需要解决的问题或创新点 2. 寻找源域:搜索可能包含相关知识或方法的其他领域 3. 知识提取:从源域提取关键的知识、技能或方法 4. 相似性分析:分析源域和目标域之间的结构相似性 5. 转移策略设计:制定知识从源域到目标域的转移策略 6. 构建转移提示:创建引导AI进行知识转移的提示语 • 成就系统 • 社交互动 个性化挑战 • 即时反馈 (4) 相似性分析: • 游戏玩家<->学生0 码力 | 103 页 | 5.40 MB | 1 年前3
在网格的边缘试探:企业 Istio 试水指南276db8510c06d3480b5a49d1eaa/p12_2.jpg) ## 制定目标 • 集群环境申请:版本、开关、资源等。 - 功能性需求:本次试用中Istio需要提供的功能,再次强调:No Freestyle • 非功能需求:并发、成功率、响应时间等服务质量参数。 • 故障处理需求:故障预案。 · 影响范围分析。 • 选定测试版本:研读开放Issue以及Release Notes。 如果性能下滑,可以尝试扩张资源。 - 如果无法达成测试目标,建议取消——无侵入的好处就是可以撤退。 • 评估关联服务的工作情况——尤其是重试、超时特性的应用 ## 切换演练 • 在测试版本和后备版本之间根据预案进行切换。 · 验证相关服务的工作状况。 · 最终保障 ## 试点上线 - 在通过测试验证和切换演练的过程之后,就可以将试用的网格应用上线到生产环境开始试运行了。和所有其他上线活动一样,在上线0 码力 | 19 页 | 11.41 MB | 1 年前3
微服务和Service Mesh 在多个行业落地实践脉冲流量测试 秒杀场景测试 限流演练 降级演练 预案演练 故障演练 安全测试演练 采用梯度压力,看服务的性能变化情况,评估出服务的最大容量值。 在达到停止条件之后,继续增加压力,检验服务集群在失效状态下的表现。 在峰值压力下,保持30分钟(可讨论)稳定 制造脉冲式的压力,检验系统在脉冲压力下的表现是否稳定。 针对秒杀类业务,制定秒杀测试场景 多级限流,保护系统稳定提供服务 非核心业务降级,提升整体服务能力 非核心业务降级,提升整体服务能力 实施预案演练,应对突发问题 针对特定服务故障注入,观察服务的高可用、稳定可靠性 负责人给出安全测试演练用例说明 ## 全链路压测平台  ## 微服务平台总览  ☐ 操作:输入:“如果领导说‘项目缺了你不行,能不能缩短假期?’如何回应?” ☐ AI建议回应: • 共情+底线+替代方案: “我完全理解项目的重要性,但家人目前手术风险 安排。 ## 缓解工作压力和失眠: 中短期内:失眠和压力会影响你的整体表现和健康。可以安排一些时间做放松训练、适量运动、或者短暂休息。必要时安排咨询,调整心态。 ## 制定健康改善计划: 中期计划:针对体脂率问题,制定一个可行的锻炼和饮食计划,让健康改善成为你日常生活的一部分,不必急于求成,而是稳步前进。 ## 关注父母健康: 近期内但可稍后安排:父母体检的异常指标虽然令人担忧,但通常 倾听对方的观点,寻找共同点 - 示例:问领导,“您觉得我在团队合作和沟通方面可以改进的地方具体有哪些呢?我很愿意听取您的建议。” ### 4. 寻求共识,提出解决方案 - 示例:提出,“也许我们可以一起制定一些具体的改进目标,并定期沟通我的进展。” • 进一步:“如果我在某些方面表现出色,但在其他方面还有欠缺,我们可以一起探讨如何平衡这些表现。” ### 5. 设定界限,明确期望 - 示例:温和0 码力 | 65 页 | 4.47 MB | 1 年前3
从高并发到极端并发:百度 Feed 与春晚红包的高可用实践-吴永巍✓问题:子系统扩展性瓶颈 ✓问题:故障容忍能力 ✓问题:测试与验证的复杂性 - 以大化小(以巨化大),SET化 ✓条带化,多个单元化集群 ✓业务优化适配 ✓可防止故障扩散 ✓更可控的预案 接入 扩展 → 业务 扩展 → 存储 接入 按用户条带化 业务业务业务业务业务业务业务业务 巨型方案: 横向扩展 巨型分布式系统 存储 存储 存储 存储 存储 存储 SET化方案: • 实时处理 • 事件关联 • 自动选择预案 • 止损第一 · 风险最小原则 · 动态自适应策略 • 隔离+多集群调度 · 柔性处理不雪崩 • 架构设计权衡的艺术:自愈 不等于 100% 全自动,可结合人工辅助 ## 除了基本的设计与实现,还有哪些关键工程实践? • 弹性资源供给和动态调度 - 全链路压测与攻防 • 内测,剧本,预案与演练 $\ ## 弹性资源供给与动态调度 吞吐验证 分活动拨次发压 应急指挥机制演练 未达预期环节补充验证 ## 内测与剧本、预案及演练 • 内测:架构设计,必须从真实用户侧来验收 • 结合时间轴的剧本:时间不等人 ✓架构设计考虑应变能力:口播时间临时变化的N种场景 ✓不存在“未定义”的场景 √不是附属 - 异常预案手册及演练 ✓手册,超一百页,分级 √充分的检查 ✓模拟演练,带压测演练,带蓝军演练… 潜在的坑:0 码力 | 28 页 | 58.98 MB | 2 年前3
1.1.4 谈谈 Go 服务稳定性建设时延 Go 服务监控告警 及时精准 降噪 持续优化 关注异常日志 Go 服务故障演练 识别和梳理风险点(分等级) 整理风险点的应急预案 定期故障演练(遵循应急预案) 复盘、优化、调整应急预案 Go 服务排障 保存现场,检查根因 监控告警 -> 是否流量过高 重启 回滚 扩容 (ecs or k8s) 调整限流 线上排障(无奈之举)0 码力 | 18 页 | 1.58 MB | 1 月前3
1.1 基于Go构建滴滴核心业务平台的实践alt=‘OCR图片’/> 调用拓扑 ’ alt=‘OCR图片’/> 链路优化-压测 如何为诊断系统瓶颈 系统能够承载多少流量? 需要回答的问题 吞吐瓶颈在什么地方? 新建机房是否可用? 灾备预案是否可行? 非“函数式“业务 传统压测的问题 难以通过流量回放压测 难以通过线下等比放大估计 ’ alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 方案 流量标识方案 alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 ’ alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 详尽系统数据 机房流量上限 系统瓶颈分析 故障处理预案 降级,限流预案 事故处理演练 成本过高 压测通道维护成本 风险过高 业务人员配合成本 线上事故风险 ’ alt=‘OCR图片’/> 服务迁移 部分模块成为了系统瓶颈 ’ alt=‘OCR图片’/>0 码力 | 44 页 | 2.77 MB | 1 月前3
共 370 条
- 1
- 2
- 3
- 4
- 5
- 6
- 37













