PostgreSQL和Greenplum 数据库故障排查
2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 PG故障排查 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 1.安装时候的问题排查 2018年PostgreSQL中国技术大会 微信号:laohouzi999 要 在生产环境中使用。 reject reject是拒绝认证 2018年PostgreSQL中国技术大会 微信号:laohouzi999 4. PostgreSQL启动故障排查 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会0 码力 | 84 页 | 12.61 MB | 1 年前314-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧
Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name:张慧 网易伏羲 Speaker Title:网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email:zhangui05@corp.netease.com 云 原 生 学 院 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具0 码力 | 25 页 | 3.33 MB | 5 月前3告警OnCall事件中心建设方法白皮书
优化告警规则 类似 PagerDuty FlashDuty 这种产品,一定程度上是可以解决一些告警过多的问题,但如果能从告警规 则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什 通过排班、认领、升级这些机制,可以确保告警递达指定的人,但要处理告警的话,只有值班人员自己就 未必搞得定了,需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障,可能同时有多个告警 事件产生,大家基于一个统一的故障协同,而不是基于一堆事件分别协同,这就需要把这多个事件收敛成 一个故障,下面我们来聊一下这个收敛逻辑。 告警收敛逻辑 一般收敛逻辑是三级收敛,event -> alert -> incident。举个例子,最原始的告警事件,比如 incident(故障),基于 incident 做协同才比较方便。但是,event 到 alert 是有一个固定的收敛逻辑的,可以通过程序自动收敛,而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法,下面我举几个例子。 1、根据时间做收敛 把告警中心收到的所有告警,按照时间维度做收敛,比如按照分钟颗粒度,一分钟内所有告警收敛成一个 故障,下一分钟所0 码力 | 23 页 | 1.75 MB | 1 年前3降级预案在同程艺龙的工程实践-王俊翔
⾃自我介绍 搜索故障 微信⼩小程序 API⽹网关 资源1 搜索引擎 统⼀一资源⽹网关 资源2 资源3 资源4 …… 资源4 ⼤大量量超时 统⼀一资源⽹网关 搜索引擎 API⽹网关 ⼤大量量请求超时 缺乏熔断设计 交易易故障 第三⽅方⽀支付 ⽀支付中⼼心 ⽀支付回写 消息队列列 ⽀支付通知 交易易中台 ⽀支付时限任务 出票处理理 队列列故障 已⽀支付订单被取消 降级策略略集中管理理,通过参数 化、配置化、脚本化⽅方式实现线 上策略略的灵活调整 • 依据服务重要程度,从全局制定 分级预案,对降级点进⾏行行预案编 排,并跟踪监控降级链路路的执⾏行行 • 发现潜在故障,多维度验证预案 有效性,评估系统可靠性,提供 降级策略略、参数调整的优化依据 整体架构 Agent 服务降级注册 降级熔断通知 元数据存储 控制 中⼼心 ETCD ETCD 流控 隔离 实时策略略推送 数据采集 应⽤用管理理 策略略管理理 流控管理理 预案管理理 指标管理理 监控告警 数据⼤大盘 脚本开发 ETCD管理理 故障演练 业务保障管理理后台 应⽤用JVM进程 故障动态注⼊入 Attach 故障注⼊入 指标聚合查询 熔断降级计算(Flink) ⽇日志中⼼心 KAFKA 数据采集、计算、存储 指标(HBase) 指标明细(ES) 降级⽇日志(ES)0 码力 | 26 页 | 18.67 MB | 1 年前3Flashcat 让监控分析变简单,Flashcat产品技术交流
将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视⻆的驾驶舱,也提供层层下钻的故障定位能⼒,有效缩短故障发现和定位 时间。 统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One 的数据采集器 北京快猫星云科技有限公司 数据统计 统一观测 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 以故障处理为中⼼的稳定性保障模型 故障开始 故障发现 故障定位 服务⽌损 状态恢复 状态正常 状态正常 发现处理 可能出现尝试定位和 尝试⽌损过程的反复 常态预防 复盘改进 ⾸要原则是:先⽌损后排查 状态异常 稳定性建设的重点 北京快猫星云科技有限公司 发现 真.故障 收敛 故障范围 引导下钻定位 引导下钻定位 北极星 灭⽕图 ⽇志分析 链路分析 事件分析 指标分析 容量分析 基础设施分析 。。。 引导定位 关键特征 关键事件 量化业务层的健康状态 量化IT系统层的健康状态 预置故障定位的最佳实 践,引导分析定位问题 串联打通,交互验证 数据融合,最佳路径 ⾯向稳定性保障场景 ⾯向业务视⻆的故障发现定位体系 数据采集0 码力 | 43 页 | 6.54 MB | 1 年前3OpenShift Container Platform 4.9 网络
验证端点的网络连接 第 第 8 章 章 配置 配置节 节点端口服 点端口服务 务范 范围 围 8.1. 先决条件 8.2. 扩展节点端口范围 8.3. 其他资源 第 第 9 章 章 配置 配置 IP 故障 故障转 转移 移 6 6 6 7 10 10 11 11 11 11 12 12 12 13 13 13 18 19 19 19 20 21 21 23 23 24 24 24 . . . . . . 9.1. IP 故障转移环境变量 9.2. 配置 IP 故障转移 9.3. 关于虚拟 IP 地址 9.4. 配置检查和通知脚本 9.5. 配置 VRRP 抢占 9.6. 关于 VRRP ID 偏移 9.7. 为超过 254 地址配置 IP 故障转移 9.8. INGRESSIP 的高可用性 9.9. 删除 IP 故障切换 第 第 10 章 章 在裸机集群中使用流控制 将 LINUXPTP 服务配置为普通时钟 11.7. 将 LINUXPTP 服务配置为边界时钟 11.8. 为 PTP 硬件配置 FIFO 优先级调度 11.9. 常见 PTP OPERATOR 故障排除 11.10. PTP 硬件快速事件通知框架 第 第 12 章 章 网 网络 络策略 策略 12.1. 关于网络策略 12.2. 记录网络策略事件 12.3. 创建网络策略 12.4.0 码力 | 388 页 | 4.04 MB | 1 年前3OpenShift Container Platform 4.14 机器管理
管理机器 优点 限制 12.1. 集群 API 架构 12.2. YAML 文件示例 12.3. 创建 CLUSTER API 计算机器集 12.4. 对使用 CLUSTER API 的集群进行故障排除 第 第 13 章 章 管理 管理 CONTROL PLANE 机器 机器 13.1. 关于 CONTROL PLANE 机器集 13.2. CONTROL PLANE 机器集入门 13 机器集配置 13.4. 使用 CONTROL PLANE 机器集管理 CONTROL PLANE 机器 13.5. CONTROL PLANE 弹性和恢复 13.6. CONTROL PLANE 机器集故障排除 13.7. 禁用 CONTROL PLANE 机器集 第 第 14 章 章 部署机器健康 部署机器健康检查 检查 14.1. 关于机器健康检查 14.2. MACHINEHEALTHCHECK Container Platform 版本 4.1 起,此过程变得更加容易。每个计算机器集限定在一个 区,因此安装程序可以代表您的可用区向计算机器集发送。然后,由于您的计算是动态的,因此在面对区 域故障时,您始终都有一个区域来应对必须重新平衡机器的情况。在没有多个可用区的全局 Azure 区域, 您可以使用可用性集来确保高可用性。自动扩展器在集群生命周期内尽可能提供平衡。 其他 其他资 资源 源0 码力 | 277 页 | 4.37 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum ....................................................................................... - 14 - 冗余与故障切换 ................................................................................................ ................................................................................. - 15 - Instance 故障切换与恢复 .................................................................................... - 17 - Master0 码力 | 416 页 | 6.08 MB | 1 年前3MySQL 数据库架构灾难恢复解决方案
亿美元。该航空公司最终在停电当天取消 了约1,000 个航班,并在接下来的两天内停飞了另外1,000 个航班。 由于取消约130 个航班和延误200 个航班,成千上万的乘客滞留在世界各 地。 在法国云服务irm 的故障后, 数百万个网站下线了。Anger 预计将使公司 损失超过1.05 亿欧元。 数以百万计的银行客户无法访问在线帐户。银行花了将近2天的时间才恢 复正常运作。 5 / 55 Copyright 提供强大的界面,有助于自动化和集成所有组件 InnoDB 克隆以自动生成成员,完全集成在InnoDB 中 MySQL Router MySQL Server RPO =0 RTO =seconds ( 自动故障转移) Copyright @ 2021 Oracle and/or its affiliates. 9 / 55 Present - Solutions! 2020 - MySQL InnoDB Cluster 副本连接到一个主MySQL InnoDB Cluster 高可用 (区域内的失败) RPO =0 RTO =秒级 (自动故障转移) 灾难恢复( 区域故障) RPO !=0 RTO =分钟或更长时间( 手动故障转移) 无写入性能影响 特点 • 简单易用 • 熟悉的界面和可用性 mysqlsh,CLONE,... • 在线添加/删除节点/集群 •0 码力 | 52 页 | 3.07 MB | 1 年前3OpenShift Container Platform 4.7 日志记录
Elasticsearch Operator 名称和成熟度等级 OpenShift Elasticsearch Operator 报告 CSV 成功 减少 Elasticsearch pod 证书权限警告 从警报到解释和故障排除的新链接 删除作业的新连接超时 最小化滚动索引模板的更新 1.2.11.2. 技术预览功能 1.2.11.3. 弃用和删除的功能 1.2.11.3.1. Elasticsearch Curator OpenShift Container Platform Logging 2.1.4. 关于查看集群仪表板 2.1.5. 关于 OpenShift Container Platform Logging 故障排除 2.1.6. 关于卸载 OpenShift Container Platform Logging 2.1.7. 关于导出字段 2.1.8. 关于 OpenShift Logging 组件 LOGGING 仪表板 11.2. 关于 OPENSHIFT LOGGING 仪表板 11.3. LOGGING/ELASTICSEARCH 节点仪表板上的图表 第 第 12 章 章 日志故障排除 日志故障排除 12.1. 查看 OPENSHIFT LOGGING 状态 12.1.1. 查看 Red Hat OpenShift Logging Operator 的状态 12.1.1.1. 情况消息示例0 码力 | 183 页 | 1.98 MB | 1 年前3
共 531 条
- 1
- 2
- 3
- 4
- 5
- 6
- 54