机房故障 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PostgreSQL和Greenplum 数据库故障排查

2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会自我介绍微信号：laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平，太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家（TVP）出版了技术专著《IT架构实录》微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会 PG故障排查微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 1.安装时候的问题排查 2018年PostgreSQL中国技术大会微信号：laohouzi999 要在生产环境中使用。 reject reject是拒绝认证 2018年PostgreSQL中国技术大会微信号：laohouzi999 4. PostgreSQL启动故障排查 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会微信号：laohouzi999 2018年PostgreSQL中国技术大会

0 码力 | 84 页 | 12.61 MB | 1 年前
3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name：张慧网易伏羲 Speaker Title：网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email：zhangui05@corp.netease.com 云原生学院目录  网易伏羲私有云简介  为什么混沌测试  什么是混沌测试为什么混沌测试理想下，系统用不宕机，100%可用比如机房突然断电事故突然的到来为什么混沌测试通用指标阶段性进阶衡量标准指标量化什么是混沌测试什么是混沌测试混沌工程旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。混沌工程将预想的事情和实际混沌工程将预想的事情和实际发生的事情进行对比，通过“有意识搞破坏”来提升系统稳定性。鲁棒性故障注入如何选择混沌测试工具混沌工具混沌工具为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition

0 码力 | 25 页 | 3.33 MB | 6 月前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散不够智能的空调控制系统空调缺乏对整个环境的全面感知空调对温度的控制存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容代表算法有RNN，LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent

0 码力 | 17 页 | 2.49 MB | 1 年前
3
Nacos架构&原理

年做分布式系统改造时开始建设，特殊之处在于它是整个分布式系统的协调者和全局入口，也意味着它的可用性，可靠性，可观测性等分布式系统指标影响整个分布式系统的运行。历史上，这个系统在阿里也触发过大故障，经历过数次血与火的考验。在阿里数次架构升级中，Nacos 都做了大量的功能迭代，用来支持阿里的异地多活，容灾演练，容器化，Serverless 化。Nacos 经过阿里内部锤炼十年以上，各项指标已经及其先进，稳定，为服务服务端进行创建并进行管理的，必须保证大部分的节点都保存了此配置数据才能认为配置被成功保存了，否则就会丢失配置的变更，如果出现这种情况，问题是很严重的，如果是发布重要配置变更出现了丢失变更动作的情况，那多半就要引起严重的现网故障了，因此对于配置数据的管理，是必须要求集群中大部分的节点是强⼀致的，而这里的话只能使用强⼀致性共识算法。为什么是 Raft 和 Distro 呢对于强⼀致性共识算法，当前工业生产中，最多使用的就是健康状态、权重等属性。随着服务规模的扩大，渐渐的又需要在整个服务级别设定⼀些权限规则、以及对所有实例都生效的⼀些开关，于是在服务级别又会设立⼀些属性。再往后，我们又发现单个服务的实例又会有划分为多个子集的需求，例如⼀个服务是多机房部署的，那么可能需要对每个机房的实例做不同的配置，这样又需要在服务和实例之间再设定⼀个数据级别。 65 > Nacos 架构 Zookeeper 没有针对服务发现设计数据模型，它的数据是以⼀种更加抽象的树形

0 码力 | 326 页 | 12.83 MB | 9 月前
3
分布式异地多活架构实践之路

• 实际应用效果 • 未来规划单机房遇到的问题可用性低响应时间慢系统扩容难可用性低响应时间慢系统扩容难大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 后续规划技术挑战几十毫秒的延迟；跨机房性能较慢机房天然延迟专线费用高；专线不稳定跨机房专线问题依赖小服务，有一定改造成本； Servers Servers Servers MS MS GSLB MS 上报/探测上报上报上报/探测上报/探测上报获取入口地址服务访问根据运行情况进行负载均衡/踢出故障入口入口入口入口三地同步/调用核心业务异地多活核心系统非核心系统原有系统单向依赖传统DNS调度存在问题 LocalDNS 智能DNS （权威域名服务器）获取服务IP IP请求 DNS劫持严重用户设置DNS服务器 DNS各级缓存 DNSTTL不遵循 EDNS普及缓慢根据用户IP来进行运营商区域的调度结果：无法就近返回最优的机房IP、机房之间负载不均衡、机房异常后无法快速容灾精准流量调度-全局 HTTPDNS LocalDNS 智能DNS 合肥IDC 北京IDC 广州IDC 弱依赖，可控 SDK封装：重点域名预解析缓存域名解析结果（sp、

0 码力 | 36 页 | 1.66 MB | 1 年前
3
康彬-基于微服务的混合云和同城双活实践

registry data_proxy LB DNS app/browser nginx-Proxy nginx-Proxy data(r) 同城双活的探索未来的担忧单机房如果发生机房级的灾难怎么办？单集群随着流量越来越大，集群规模越来越大，怎么破？单元化&多活的范围 boss 客服系统销售系统风控审核催收系统政策管理 prod devops 用户增长发布系统故障时，只影响内部办公相关的公司经营活动，不影响用户下单交易故障时，间接或部分影响用户下单交易，但有降级方案来缓冲、减少影响故障时，只影响日常研发运维活动的进行，不影响用户下单交易故障时，直接影响用户下单交易，且没有降级方案来缓冲、减少影响 …… 财务系统招聘系统 …… 美好的愿望中心机房 registry 全站业务服务全站业务服务 data(r/w) web 核心交易平台风控审核平台 data_proxy 单元机房 registry data(r) web data_proxy registry_sync 电商单元核心交易平台风控审核平台残酷的现实缺乏按用户维度的流量调度能力 LB Nginx-Proxy Nginx-Proxy 自建IDC 云IDC 3 2 1 6

0 码力 | 47 页 | 6.09 MB | 1 年前
3
美团点评2018技术年货

《深度剖析开源分布式监控 CAT》  产品价值产品价值减少故障发现时间。降低故障定位成本。辅助应用程序优化。技术优势技术优势实时处理：信息的价值会随时间锐减，尤其是在事故处理过程中。全量数据：全量采集指标数据，便于深度分析故障案例。高可用：故障的还原与问题定位，需要高可用监控来支撑。故障容忍：故障不影响业务正常运转、对业务透明。高吞吐：海量监控数据的收集，需要高吞吐能力做保证。的这行注释掉，本以为会“大功告成”，但没想到仅仅过了几天，5xx告警又来“敲门”。看来，这个问题并没我们最初想象的那么简单。阶段2：可疑日志浮现阶段2：可疑日志浮现接下来，我们只能硬着头皮去查日志，特别是故障发生点前后的日志，于是又发现了一处可疑的地方：可以看到：在极短的时间内，狂打 failed to allocate 64(bytes) of direct memory(...) 日志（瞬间和性能统计等功能。本文主要讲述Oceanus如何通过策略抽象、查询、渲染和分组动态更新，实现HTTP 请求的定制化路由。随着公司业务的高速发展，路由场景也越来越复杂。比如：团购秒杀要灵活控制压测流量，实现线上服务单节点、各机房、各地域等多维度的压测。外卖业务要做流量隔离，把北方地域的流量转发到分组a，南方地域的流量转发到分组b。酒旅业务要对App新版本进行灰度，让千分之一的用户试用新版本，其他用户访问老版本。

0 码力 | 229 页 | 61.61 MB | 1 年前
3
Go在数据库中间件的应用

两年通信设备开发经验，四年互联网 • 五年C/C++使用经验，一年Golang 2 CONTENTS • 程序开发的需求 • Golang特性 • Go开发mysql中间件 • 整体方案 • 分表路由 • 故障切换 • 平滑扩容 • 系统运维 3 程序开发的需求 • 语言特性精炼，容易入门 • 开发效率高，代码逻辑清晰 • 运行性能强，节省机器资源 • 部署维护方便 • 生态圈完善 4 9 故障主备切换 • 故障情形 • 从节点挂掉：进行剔除下线处理 • 主节点挂掉，机器存活：通过binlog恢复数据，提升备为主 • 主节点挂掉，机器不存活：采用Relaylog恢复数据，提升备为主 • 部署模式 • 一主多从 • 双主多从 10 故障主备切换 • 一主多从模式 master slave slave slave slave 机房A 机房B Dead-Master 日志 Latest-Slave与Slave差异日志 Master故障时试图通过Rsync拉取Binlog，最大程度保证数据不丢失； Slave之间的数据差异通过中继日志恢复。 • 数据恢复工作原理 11 故障主备切换 • 双主多从模式 master slave slave slave slave 机房A 机房B master 12 在线平滑扩容 • 数据迁移形式 •

0 码力 | 17 页 | 4.02 MB | 1 年前
3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

分钟级弹性扩缩容 - 支持性能独占独占 (优于普通ECS) 硬件故障率硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟，天]成本效率稳定云化架构物理机 + 本地存储 + Underlay网络神龙/ECS + 远程存储 + Overlay网络集团机房云上机房基础设施 IDC 系统基础运维天基系统 CMDB 安全审计单机监控监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统 • 基础环境一致性故障自愈 (1-5-10) • 监控、故障发现 (1-5) • 本地检测 (walle, NPD) + 外部系统 (IDC、aliyun) • SLI、SLO、SLA • 钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine

0 码力 | 21 页 | 7.81 MB | 6 月前
3
Service Mesh的实践分享

侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能无侵入性。应用自行调用运维难度难度大。客户端的问题会对应用直接产生影响，耦合太重难度小。Sidecar故障可以将流量临时切到 remote proxy解决难度小。集群通过LVS接入，单台机故障可以下线升级难度难度极大。需要客户端修改代码、发布、上线。难度小。切换流量到remote proxy可以实现用户无感知的无损升级。难度小。通过LVS摘流量滚动升紧张的情况下；而且还容器导致资源浪费（sidecar的使用率问题）影响小。宿主机预留部分资源启动daemonset 即可运维难度难度大。Sidecar故障会影响同一个pod的业务容器，同生共死难度小。Sidecar故障可以将流量临时切到 remote proxy解决升级难度难度大。升级Sidecar需要业务容器一起发布，协调成本高，而且全量升级sidecar对整个系统的动荡太大规则路由、标签路由、邻近机房路由、Hash路由、基于权重的路由、熔断、健康探测、超时重试、限流降级等等 • 契约化治理，服务接口变更diff并通知上游 • 环境无关，物理机、云、测试机器、本机都能跑实践中踩过的坑我是作者名称ZooKeeper的强耦合 • 初始设计没有抽象服务注册发现和服务配置的接口，直接操作ZK并且依赖了ZK的特性和原语 • ZK弊端显现 • 跨机房多活问题 •

0 码力 | 30 页 | 4.80 MB | 6 月前
3

共 557 条前往

页

分类

语言

格式

PostgreSQL和Greenplum 数据库故障排查

14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧

杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

Nacos架构&原理

分布式异地多活架构实践之路

康彬-基于微服务的混合云和同城双活实践

美团点评2018技术年货

Go在数据库中间件的应用

阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

Service Mesh的实践分享