微服务环境下的系统治理与容错!千万不要做一步到位,推倒重来 式的改造 ## 服务分解的四大障碍 1、网络延迟 2、同步通信降低了可用性 3、跨服务的数据一致性 4、上帝类 ## 微服务的忠告 ■ 第一,要记住微服务不是解决所有问题的万能 “银弹”。 ■ 第二,编写整洁的代码和使用自动化测试至关重要,因为这是现代软件开发的基础。 ■ 第三,关注微服务的本质,即服务的分解和定义,而不是技术,如容器和其他工具。 ■ 第四,确 容错 ## 故障和问题 ☐ 故障: ITIL对故障的定义:不符合服务的运营标准且引发了或者可能引发服务中断或服务质量下降的事件。 1. 可能是造成了停机的事件 任何降低了服务质量的事件 2. 也可能是造成对最终用户响应慢的事件 3. 也可能是返回给最终用户的结果不对或与预期不符的事件 ☐ 问题: ITIL对问题的定义:造成一个或多个故障的不明起因。(故障的根本原因-问题) 恢复故障所 ,而不是构建在它们周围; 5. 我们所说的监控不只是查看CPU的使用情况、负载、内存使用情况; 问题的范围或具体程度  回答问题所需的数据量 ## 同步调用下-无线程池隔离 ## 无线程池隔离 ISV软件1 故障传导 ISV软件20 码力 | 45 页 | 16.09 MB | 2 年前3
Envoy原理介绍及线上问题踩坑# Envoy原理介绍及线上问题踩坑 介绍人:张伟 ## 个人介绍  ## 张伟 华为云容器网格数据面技术专家 拥有10年以上中间件及高性能系统开发经验,作为架构师及核心开发人员发布过传输网管系统、Tuxedo交易中间件、ts-ser 工作。 ## 目录 1. Envoy启动及配置文件 2. Envoy流量拦截原理、常用部署方式 3. Envoy可扩展过滤器架构、可观测性 4. Envoy线程模型 5. 生产环境问题分析及解决方法 6. 针对Envoy做的一些优化及效果 7. 常用性能分析测试工具及使用方法 8. 华为ASM产品介绍 ## 前言 微服务架构最早由Fred George在2012年的 完成响应数据的接收和发送。 • 由于Router部分请求处理方向需要进行更多路由选择计算及负载均衡计算工作,因此通常outbound方向处理较复杂,CPU消耗比inbound更高。 ## 生产环境问题分析及解决方法(1) 503 Service Unavailable 由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是暂时的,并且将在一段时间以后恢复。 $ ^{[61]} $0 码力 | 30 页 | 2.67 MB | 2 年前3
菟葵 - Krita 问题答疑速查 - 2023-11-26AKrita 问题答疑速查 ## 前言 不定期更新 2023 年 11 月 25 日 23 点 44 分 旧版 “国内 krita 用户常见问题答疑 2020-6-17.pdf”不继续写了。(排版等问题……) 本文档抽空所写,可能有错漏部分,还望理解与指出。内容为群内问题答疑记录与本人主观自问自答,希望能帮助到Krita的新用户。 使用 PDF 阅读器的搜索/查找功能输入问题的关键词来速查,或翻阅书签查找。 止一个绘画软件都会被搞的不正常! 如果切换了默认快捷键方案,必须要把键盘快捷键和画布快捷键的方案设置成同一个,比如要改成 PS 快捷键方案,两处都该设置为 PS 快捷键方案!以免引起快捷键出现奇怪问题! ## 问:怎么按图层内容大小导出图层? Krita4.4.2-beta2 Windows 答: 0、先保存当前工作内容为 kra 格式文件  ## 答: 可以试着救一下文件,但不能保证能恢复多少,这种情况一般认为是 krita 没有完成正常的写入操作导致的,由于产生这个问题的当事人无法描述清楚,所以不得而知究竟是杀毒之类干扰了 krita 写入还是怎么回事。 要试着抢救文件需要一个压缩解压缩的软件,这里讲述的时候用7z来讲。  本文档抽空所写,可能有错漏部分,还望理解与指出。内容为群内问题答疑记录与本人主观自问自答,希望能帮助到Krita的新用户。 使用 PDF 阅读器的搜索/查找功能输入问题的关键词来速查,或翻阅书签查找。 止一个绘画软件都会被搞的不正常! 如果切换了默认快捷键方案,必须要把键盘快捷键和画布快捷键的方案设置成同一个,比如要改成 PS 快捷键方案,两处都该设置为 PS 快捷键方案!以免引起快捷键出现奇怪问题! ## 问:怎么按图层内容大小导出图层? Krita4.4.2-beta2 Windows 答: 0、先保存当前工作内容为 kra 格式文件  ## 答: 可以试着救一下文件,但不能保证能恢复多少,这种情况一般认为是 krita 没有完成正常的写入操作导致的,由于产生这个问题的当事人无法描述清楚,所以不得而知究竟是杀毒之类干扰了 krita 写入还是怎么回事。 要试着抢救文件需要一个压缩解压缩的软件,这里讲述的时候用7z来讲。  ■ 可灵活组合 (生命周期钩子可多次使用)0 码力 | 36 页 | 4.87 MB | 2 年前3
Red Hat OpenShift Local 2.26 发行注记和已知问题Red Hat OpenShift Local 2.26 ## 发行注记和已知问题 Red Hat OpenShift Local 2.26 中突出显示的功能和识别的问题 Powered by TCPDF (www.tcpdf.org) Red Hat OpenShift Local 2.26 中突出显示的功能和识别的问题 Fabrice Flore-Thebault ffloreth@redhat 的潜在问题的信息。在可能的情况下,会针对发现的问题进行临时解决方案。 ## 目录 使开源包含更多 …… 3 第 1 章 发行注记 …… 4 1.1. 组件版本 …… 4 1.2. 最低系统要求 …… 4 1.3. 更改和增强 …… 5 1.4. 主要改进 …… 5 1.5. 技术预览 …… 6 1.6. 主要变化 …… 6 第 2 章 已知问题 …… 7 7 2.1. 常规问题 …… 7 2.2. MICROSOFT WINDOWS 上的问题 …… 8 2.3. MACOS 的问题 …… 9 ## 使开源包含更多 红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。我们从这四个术语开始:master、slave、黑名单和白名单。由于此项工作十分艰巨,这些更改将在即将推出的几个发行版本中逐步实施。有关更多详情,请参阅我们的首席技术官0 码力 | 13 页 | 161.33 KB | 2 年前3
手写数字问题0 码力 | 10 页 | 569.56 KB | 2 年前3
一次线上java 应用响应时间过长问题的排查[Image](/uploads/documents/b/1/0/5/b1059dfbcee2b670b93af9e16b949726/p1_1.jpg) ## 链滴 ## 一 次线上 java 应用响应时间过长问题的排查 作者:xinzhongtianxia 原文链接:https://ld246.com/article/1569574881351 来源网站:链滴 许可协议:署名-相同方式共享 4.0 国际 到 2s 以上。
第一反应,怎么可能,这个应用很简单,就提供了几个查询接口,QPS 单机也就 10 左右,居然响应间 2s 以上,这不科学。看监控平台,有问题的机器,cpu占用很高,这。。。更不科学了。理论上,这应用cpu能到1
就不错了,现在居然 80%,吓得我赶紧跑到机器上,top 了一把,确实是 java 应用占用 cpu 很高。 即使是 CMS,也不能避免传说中的 stop the world,所以响应时间变长了。
但是,现在问题来了,Full GC 回收不掉的对象都是啥啥啥?分析 java 堆内存
先把线上流量从这台机器切走,然后 dump,分析后发现,一共
0 码力 | 3 页 | 247.74 KB | 2 年前3
新语⾔,新思维 解读⼀个并发问题的多种实现 - 陶召胜## 新语言,新思维 ## 解读一个并发问题的多种实现 陶召胜 ## next: 异步编程的问题 ## 变量读写冲突 异步任务1 读、写 共享变量 读、写 异步任务2 ## I O阻塞 object ExampleBlockingScala extends App { //所有并发任务在这个拥有10个线程的线程池中执行 implicit val ec = ExecutionContext [Image](/uploads/documents/8/c/f/6/8cf6a2ee9e212c6a8409afd0a26b9bd4/p32_2.jpg) ## Java7 fork/join 分解合并问题  ## 例子fork/join实现0 码力 | 42 页 | 9.85 MB | 2 年前3
告警OnCall事件中心建设方法白皮书
ts/a/f/2/3/af23dd3a5d68a86ba08b082c21337120/p2_1.jpg) 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 ## 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 TODO 都没有。这类告警多了人就疲了,当重要的告警来临的时候,也容易忽略。这样的规则如果不经过治理,日积月累,就会产生很多无用的告警。 第二个常见的原因是底层出问题导致所有的上层依赖都告警,越是底层影响越大,比如基础网络如果出问题,发出几万条告警都是正常的。 第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出,用户可能会觉得单一渠道不可靠,想用多个渠道同时发送的方式来保障告警触 了解了常见原因,下面我们来看一下有哪些常见解法。 ## 优化告警规则 类似 PagerDuty FlashDuty 这种产品,一定程度上是可以解决一些告警过多的问题,但如果能从告警规则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无效告警占多数,长此以往,工程师疲惫不堪。 那0 码力 | 23 页 | 1.75 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













