Envoy原理介绍及线上问题踩坑# Envoy原理介绍及线上问题踩坑 介绍人:张伟 ## 个人介绍  ## 张伟 华为云容器网格数据面技术专家 拥有10年以上中间件及高性能系统开发经验,作为架构师及核心开发人员发布过传输网管系统、Tuxedo交易中间件、ts-ser0 码力 | 30 页 | 2.67 MB | 2 年前3
ShardingSphere 高可用功能详解 & 实战演练-赵锦超## Apache ShardingSphere 高可用功能详解 & 实操演练 赵锦超 2022.08.06 ## 赵锦超 Apache ShardingSphere Committer SphereEx 研发工程师 ☐ 从事过电商、金融行业,热爱开源 目前专注于 Apache ShardingSphere 高可用 & 分布式治理的相关研发工作 ## 目录 01 Apache ShardingSphere 高可用介绍 02 Apache ShardingSphere 高可用源码解析 03 Apache ShardingSphere HA & MySQL MGR 实战演练 ## Apache ShardingSphere 高可用介绍 ShardingSphere-Proxy 高可用  脚本引擎 服务降级注册 ## 业务保障管理后台 降级熔断通知 熔断降级计算 (Flink) 实时策略推送 指标 (HBase)0 码力 | 26 页 | 18.67 MB | 2 年前3
一次线上java 应用响应时间过长问题的排查 ## 链滴 ## 一 次线上 java 应用响应时间过长问题的排查 作者:xinzhongtianxia 原文链接:https://ld246.com/article/1569574881351 来源网站:链滴 许可协议:署名-相同方式共享 world,所以响应时间变长了。
但是,现在问题来了,Full GC 回收不掉的对象都是啥啥啥?分析 java 堆内存
先把线上流量从这台机器切走,然后 dump,分析后发现,一共 160 多万个 PoolHttpConnecti nManager 对象占领了绝大多数内存。
会议了一下代码,和 http
0 码力 | 3 页 | 247.74 KB | 2 年前3
1.1.4 谈谈 Go 服务稳定性建设GopherChina 主持人&金牌讲师 • 极客时间 Go 专题出品人 • 腾讯云开发者大会讲师 TOC 稳定性的定义 Go 服务稳定性手自 稳定性的度量 Go 服务监控告警 Go 服务故障演练 Go 服务排障 稳定性定义 可用性 正确性 延迟 ’ alt=‘OCR图片’/> Go 服务稳定性手段 需求合理性 技术方案简洁性 code review 关注异常日志 Go 服务故障演练 识别和梳理风险点(分等级) 整理风险点的应急预案 定期故障演练(遵循应急预案) 复盘、优化、调整应急预案 Go 服务排障 保存现场,检查根因 监控告警 -> 是否流量过高 重启 回滚 扩容 (ecs or k8s) 调整限流 线上排障(无奈之举) Go 服务排障 线上排障 服务状态大盘 链路追踪展示0 码力 | 18 页 | 1.58 MB | 1 月前3
Nacos架构&原理
,可观测性等分布式系统指标影响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务好全球开发者,Nacos 经过数十名工程师持续努力,以开源形式和大家见面,相信 Nacos 的设计就是用来进行资源隔离的,我们在进行配置资源的时候可以从以下两个角度来看: - 从单个租户的角度来看,我们要配置多套环境的配置,可以根据不同的环境来创建Namespace。比如开发环境、测试环境、线上环境,我们就创建对应的Namespace(dev、test、prod),Nacos会自动生成对应的NamespaceId。如果同一个环境内想配置相同的配置,可以通过Group来区分。如下图所示: 服务端正常重启:服务端主动关闭连接,客户端实时感知 • 防抖: 。网络短暂不可用:客户端需要能接受短暂网络抖动,需要一定重试机制,防止集群抖动,超过阈值后需要自动切换 server,但要防止请求风暴。 断网演练:断网场景下,以合理的频率进行重试,断网结束时可以快速重连恢复。 ### 5. 安全性 支持基础的鉴权,数据加密能力。 ### 6. 低成本多语言实现 在客户端层面要尽可能多的支持多语言,至少要支持一个0 码力 | 326 页 | 12.83 MB | 1 年前3
微服务和Service Mesh 在多个行业落地实践流量尖刺、Exception log、服务线程数、异常报警..... ## 设计要点十二:全链路压测 容量测试 摸高压测 峰值稳定性测试 脉冲流量测试 秒杀场景测试 限流演练 降级演练 预案演练 故障演练 安全测试演练 采用梯度压力,看服务的性能变化情况,评估出服务的最大容量值。 在达到停止条件之后,继续增加压力,检验服务集群在失效状态下的表现。 在峰值压力下,保持30分钟(可讨论)稳定 制造脉冲式的压力,检验系统在脉冲压力下的表现是否稳定。 针对秒杀类业务,制定秒杀测试场景 多级限流,保护系统稳定提供服务 非核心业务降级,提升整体服务能力 实施预案演练,应对突发问题 针对特定服务故障注入,观察服务的高可用、稳定可靠性 负责人给出安全测试演练用例说明 ## 全链路压测平台  代码到线上全流程管理 互联网化接口测试,场景测试 灵活执行集:冒烟,日常,回归 定时测试,MOCK测试 测试,生产镜像仓库分离,自动同步 开发测试环境自动部署,生产环境手动触发 ## 微服务框架负责服务之间的调用——企业级特性0 码力 | 39 页 | 3.06 MB | 2 年前3
美团点评2018技术年货2018 技术年货 CODE A BETTER LIFE 后台 ## 序 春节已近,年味渐浓。 又到了我们献上技术年货的时候。 不久前,我们已经给大家分享了技术沙龙大套餐,汇集了过去一年我们线上线下技术沙龙99位讲师,85个演讲,70+小时分享。 今天出场的,同样重磅——技术博客全年大合集。 2018年,是美团技术团队官方博客第5个年头,博客网站全年独立访问用户累计超过300万,微信公 据、流程数据和线上数据。对持久化的数据,我们采用MySQL进行存储;对于缓存数据,我们采用了Redis的解决方案。这样数据层形成基本的两级存储结构:MySQL保证了数据的持久性,Redis保证了数据获取的速度。 这里我们对底层数据划分为三个不同域:后台数据,相当于草稿数据,运营人员所有的操作都记录在这里;流程数据,运营人员操作完成后,提供发布流程,预览及审核都在流程数据里进行;线上数据,审核通过 后,数据同步到线上数据,最终C端用户获取到的数据都是来源于线上数据。 谈到数据层,这里我们遇到了存储上的一个小问题。按城市运营的每条数据,都需要存储具体的城市ID列表,其在数据库里的存储为“1,2,3,4……”这样字符串。而这种数据存储在业务请求和条件过滤过程中,存在着如下两个问题: ### a. 大数据存储对内存的消耗 美团、大众点评运营的城市成千上万,如果每条运营的投放数据都包含大量的城0 码力 | 229 页 | 61.61 MB | 2 年前3
1.1 基于Go构建滴滴核心业务平台的实践新建机房是否可用? 灾备预案是否可行? 非“函数式“业务 传统压测的问题 难以通过流量回放压测 难以通过线下等比放大估计 ’ alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 方案 流量标识方案 实施基础 全局流量标识 struct ReqHead { 1: optional i64 hintCode; 2: optional string alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 压测频率 新机房容量测试 周期业务流程压测 压测范围 涉及所有业务模块 峰值压力的 150%+ 压测数据 抓取线上日志 Agent模拟 ’ alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 ’ alt=‘OCR图片’/> 全链路压测 滴滴如何在线上环境压测 详尽系统数据 机房流量上限 机房流量上限 系统瓶颈分析 故障处理预案 降级,限流预案 事故处理演练 成本过高 压测通道维护成本 风险过高 业务人员配合成本 线上事故风险 ’ alt=‘OCR图片’/> 服务迁移 部分模块成为了系统瓶颈 ’ alt=‘OCR图片’/> 希望什么 滴滴如何迁移业务 业务无感知/微感知 服务迁移稳定 逻辑功能无差异 ’ alt=‘OCR图片’/> 迁移经验-How 滴滴如何迁移业务0 码力 | 44 页 | 2.77 MB | 1 月前3
可发布版-美团点评微服务OCTO-曹继光影响服务运行,诊断结束后需重启,线上不可用。 - Scalpel 使用 信号量 + JVMTI 事件驱动 - 基于定时中断的采样,采样点随机(准确性高); - 不修改代码,不影响 JIT 优化; • 性能影响<3%,诊断结束后,无需重启服务。 ## 服务治理实践(5):服务保障体系 - 钻石段位 2. 配额限流 1. 服务鉴权 3. 熔断降级 服务保障体系 6. 全链路压测 4. 故障演练 5. 链路级流量隔离 ## 链路级流量隔离 - 全链路灰度发布 - 全链路压测 - 全链路故障演练  ## 服务治理实践(6)-星耀段位: 异地容灾&扩展 SET化架构模型图 












