故障 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PostgreSQL和Greenplum 数据库故障排查

2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会自我介绍微信号：laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平，太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家（TVP）出版了技术专著《IT架构实录》微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会 PG故障排查微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 1.安装时候的问题排查 2018年PostgreSQL中国技术大会微信号：laohouzi999 要在生产环境中使用。 reject reject是拒绝认证 2018年PostgreSQL中国技术大会微信号：laohouzi999 4. PostgreSQL启动故障排查 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会

0 码力 | 84 页 | 12.61 MB | 1 年前
3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name：张慧网易伏羲 Speaker Title：网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email：zhangui05@corp.netease.com 云原生学院目录  网易伏羲私有云简介  为什么混沌测试  什么是混沌测试指标量化什么是混沌测试什么是混沌测试混沌工程旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。混沌工程将预想的事情和实际发生的事情进行对比，通过“有意识搞破坏”来提升系统稳定性。鲁棒性故障注入如何选择混沌测试工具混沌工具混沌工具

0 码力 | 25 页 | 3.33 MB | 5 月前
3
告警OnCall事件中心建设方法白皮书

优化告警规则类似 PagerDuty FlashDuty 这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什通过排班、认领、升级这些机制，可以确保告警递达指定的人，但要处理告警的话，只有值班人员自己就未必搞得定了，需要有协同机制把相关人都拉进来一起处理才可以。对于某个故障，可能同时有多个告警事件产生，大家基于一个统一的故障协同，而不是基于一堆事件分别协同，这就需要把这多个事件收敛成一个故障，下面我们来聊一下这个收敛逻辑。告警收敛逻辑一般收敛逻辑是三级收敛，event -> alert -> incident。举个例子，最原始的告警事件，比如 incident（故障），基于 incident 做协同才比较方便。但是，event 到 alert 是有一个固定的收敛逻辑的，可以通过程序自动收敛，而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法，下面我举几个例子。 1、根据时间做收敛把告警中心收到的所有告警，按照时间维度做收敛，比如按照分钟颗粒度，一分钟内所有告警收敛成一个故障，下一分钟所

0 码力 | 23 页 | 1.75 MB | 1 年前
3
降级预案在同程艺龙的工程实践-王俊翔

⾃自我介绍搜索故障微信⼩小程序 API⽹网关资源1 搜索引擎统⼀一资源⽹网关资源2 资源3 资源4 …… 资源4 ⼤大量量超时统⼀一资源⽹网关搜索引擎 API⽹网关⼤大量量请求超时缺乏熔断设计交易易故障第三⽅方⽀支付⽀支付中⼼心⽀支付回写消息队列列⽀支付通知交易易中台⽀支付时限任务出票处理理队列列故障已⽀支付订单被取消降级策略略集中管理理，通过参数化、配置化、脚本化⽅方式实现线上策略略的灵活调整 • 依据服务重要程度，从全局制定分级预案，对降级点进⾏行行预案编排，并跟踪监控降级链路路的执⾏行行 • 发现潜在故障，多维度验证预案有效性，评估系统可靠性，提供降级策略略、参数调整的优化依据整体架构 Agent 服务降级注册降级熔断通知元数据存储控制中⼼心 ETCD ETCD 流控隔离实时策略略推送数据采集应⽤用管理理策略略管理理流控管理理预案管理理指标管理理监控告警数据⼤大盘脚本开发 ETCD管理理故障演练业务保障管理理后台应⽤用JVM进程故障动态注⼊入 Attach 故障注⼊入指标聚合查询熔断降级计算（Flink）⽇日志中⼼心 KAFKA 数据采集、计算、存储指标（HBase）指标明细（ES）降级⽇日志（ES）

0 码力 | 26 页 | 18.67 MB | 1 年前
3
Flashcat 让监控分析变简单，Flashcat产品技术交流

将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通，并预置⾏业最佳实践，既提供全局业务视⻆、技术视⻆的驾驶舱，也提供层层下钻的故障定位能⼒，有效缩短故障发现和定位时间。统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One 的数据采集器北京快猫星云科技有限公司数据统计统一观测 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司以故障处理为中⼼的稳定性保障模型故障开始故障发现故障定位服务⽌损状态恢复状态正常状态正常发现处理可能出现尝试定位和尝试⽌损过程的反复常态预防复盘改进⾸要原则是：先⽌损后排查状态异常稳定性建设的重点北京快猫星云科技有限公司发现真.故障收敛故障范围引导下钻定位引导下钻定位北极星灭⽕图⽇志分析链路分析事件分析指标分析容量分析基础设施分析。。。引导定位关键特征关键事件量化业务层的健康状态量化IT系统层的健康状态预置故障定位的最佳实践，引导分析定位问题串联打通，交互验证数据融合，最佳路径⾯向稳定性保障场景⾯向业务视⻆的故障发现定位体系数据采集

0 码力 | 43 页 | 6.54 MB | 1 年前
3
OpenShift Container Platform 4.9 网络

验证端点的网络连接第第 8 章章配置配置节节点端口服点端口服务务范范围围 8.1. 先决条件 8.2. 扩展节点端口范围 8.3. 其他资源第第 9 章章配置配置 IP 故障故障转转移移 6 6 6 7 10 10 11 11 11 11 12 12 12 13 13 13 18 19 19 19 20 21 21 23 23 24 24 24 . . . . . . 9.1. IP 故障转移环境变量 9.2. 配置 IP 故障转移 9.3. 关于虚拟 IP 地址 9.4. 配置检查和通知脚本 9.5. 配置 VRRP 抢占 9.6. 关于 VRRP ID 偏移 9.7. 为超过 254 地址配置 IP 故障转移 9.8. INGRESSIP 的高可用性 9.9. 删除 IP 故障切换第第 10 章章在裸机集群中使用流控制将 LINUXPTP 服务配置为普通时钟 11.7. 将 LINUXPTP 服务配置为边界时钟 11.8. 为 PTP 硬件配置 FIFO 优先级调度 11.9. 常见 PTP OPERATOR 故障排除 11.10. PTP 硬件快速事件通知框架第第 12 章章网网络络策略策略 12.1. 关于网络策略 12.2. 记录网络策略事件 12.3. 创建网络策略 12.4.

0 码力 | 388 页 | 4.04 MB | 1 年前
3
OpenShift Container Platform 4.14 机器管理

管理机器优点限制 12.1. 集群 API 架构 12.2. YAML 文件示例 12.3. 创建 CLUSTER API 计算机器集 12.4. 对使用 CLUSTER API 的集群进行故障排除第第 13 章章管理管理 CONTROL PLANE 机器机器 13.1. 关于 CONTROL PLANE 机器集 13.2. CONTROL PLANE 机器集入门 13 机器集配置 13.4. 使用 CONTROL PLANE 机器集管理 CONTROL PLANE 机器 13.5. CONTROL PLANE 弹性和恢复 13.6. CONTROL PLANE 机器集故障排除 13.7. 禁用 CONTROL PLANE 机器集第第 14 章章部署机器健康部署机器健康检查检查 14.1. 关于机器健康检查 14.2. MACHINEHEALTHCHECK Container Platform 版本 4.1 起，此过程变得更加容易。每个计算机器集限定在一个区，因此安装程序可以代表您的可用区向计算机器集发送。然后，由于您的计算是动态的，因此在面对区域故障时，您始终都有一个区域来应对必须重新平衡机器的情况。在没有多个可用区的全局 Azure 区域，您可以使用可用性集来确保高可用性。自动扩展器在集群生命周期内尽可能提供平衡。其他其他资资源源

0 码力 | 277 页 | 4.37 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Greenplum 用户解决生产需求和技术问题，我们坚持提供最专业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。十多年来，参与过的项目不计其数，有 POC 测试，有开发支持，有故障支持，有长期驻场支持，有临时的功能支持，甚至可能会作为用户看不见的后端支持，总之，我们的目标是，努力解决用户的一切不违背自然规律的诉求，我们跟随着 Greenplum 的成长，见证了 Greenplum ....................................................................................... - 14 - 冗余与故障切换 ................................................................................................ ................................................................................. - 15 - Instance 故障切换与恢复 .................................................................................... - 17 - Master

0 码力 | 416 页 | 6.08 MB | 1 年前
3
MySQL 数据库架构灾难恢复解决方案

亿美元。该航空公司最终在停电当天取消了约1，000 个航班，并在接下来的两天内停飞了另外1，000 个航班。由于取消约130 个航班和延误200 个航班，成千上万的乘客滞留在世界各地。在法国云服务irm 的故障后，数百万个网站下线了。Anger 预计将使公司损失超过1.05 亿欧元。数以百万计的银行客户无法访问在线帐户。银行花了将近2天的时间才恢复正常运作。 5 / 55 Copyright 提供强大的界面，有助于自动化和集成所有组件 InnoDB 克隆以自动生成成员，完全集成在InnoDB 中 MySQL Router MySQL Server RPO =0 RTO =seconds ( 自动故障转移) Copyright @ 2021 Oracle and/or its affiliates. 9 / 55 Present - Solutions! 2020 - MySQL InnoDB Cluster 副本连接到一个主MySQL InnoDB Cluster 高可用 (区域内的失败) RPO =0 RTO =秒级 (自动故障转移) 灾难恢复（区域故障） RPO !=0 RTO =分钟或更长时间（手动故障转移）无写入性能影响特点 • 简单易用 • 熟悉的界面和可用性 mysqlsh,CLONE,... • 在线添加/删除节点/集群 •

0 码力 | 52 页 | 3.07 MB | 1 年前
3
OpenShift Container Platform 4.7 日志记录

Elasticsearch Operator 名称和成熟度等级 OpenShift Elasticsearch Operator 报告 CSV 成功减少 Elasticsearch pod 证书权限警告从警报到解释和故障排除的新链接删除作业的新连接超时最小化滚动索引模板的更新 1.2.11.2. 技术预览功能 1.2.11.3. 弃用和删除的功能 1.2.11.3.1. Elasticsearch Curator OpenShift Container Platform Logging 2.1.4. 关于查看集群仪表板 2.1.5. 关于 OpenShift Container Platform Logging 故障排除 2.1.6. 关于卸载 OpenShift Container Platform Logging 2.1.7. 关于导出字段 2.1.8. 关于 OpenShift Logging 组件 LOGGING 仪表板 11.2. 关于 OPENSHIFT LOGGING 仪表板 11.3. LOGGING/ELASTICSEARCH 节点仪表板上的图表第第 12 章章日志故障排除日志故障排除 12.1. 查看 OPENSHIFT LOGGING 状态 12.1.1. 查看 Red Hat OpenShift Logging Operator 的状态 12.1.1.1. 情况消息示例

0 码力 | 183 页 | 1.98 MB | 1 年前
3

共 531 条前往

页

分类

语言

格式

PostgreSQL和Greenplum 数据库故障排查

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

告警OnCall事件中心建设方法白皮书

降级预案在同程艺龙的工程实践-王俊翔

Flashcat 让监控分析变简单，Flashcat产品技术交流

OpenShift Container Platform 4.9 网络

OpenShift Container Platform 4.14 机器管理

Greenplum Database 管理员指南 6.2.1

MySQL 数据库架构灾难恢复解决方案

OpenShift Container Platform 4.7 日志记录