PostgreSQL和Greenplum 数据库故障排查2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 PG故障排查 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 1.安装时候的问题排查 2018年PostgreSQL中国技术大会 微信号:laohouzi999 要 在生产环境中使用。 reject reject是拒绝认证 2018年PostgreSQL中国技术大会 微信号:laohouzi999 4. PostgreSQL启动故障排查 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会0 码力 | 84 页 | 12.61 MB | 1 年前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧Chaos Mesh 在网易伏羲私有云自动化故障注入实践 Speaker Name:张慧 网易伏羲 Speaker Title:网易伏羲私有云质量保障负责人、Chaos Mesh 布道师、云原生社区 Stability SIG 发起人 Email:zhangui05@corp.netease.com 云 原 生 学 院 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 事故突然的到来 为什么混沌测试 通用指标 阶段性进阶衡量 标准 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition0 码力 | 25 页 | 3.33 MB | 6 月前3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用PYCON CHINA 基于深度学习的多维时间序列 预测在数据机房中的应用 目 录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍 数据机房面临的能耗问题 数据机房面临电量消耗巨大的问题 空调是数据机房中电量消耗最大的设备 空调为什么那么耗电?怎么优化节能? 低效的 冷却装 置 服务主 机工作 发热 影响空 调耗电 量原因 建筑材料 隔热和散 不够智能 的空调控 制系统 空调缺乏对整个环境 的全面感知 空调对温度的控制 存在延迟 多 维 感 知 温 度 预 测 控 制 2. 研究目标 对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值,从而实现空调的预测控制。 风机状态 服务负载 天气状况 室外温度 室外湿度 门禁状态 时序数据 温度预测 预测控制 节能调节 3. 研究内容 代表算法有RNN,LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 多维时间序列预测方法解决机房温度预测 对数据包含的信息提取能力越来越强 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent0 码力 | 17 页 | 2.49 MB | 1 年前3
Nacos架构&原理
年做分布式系统改造时开始建设,特殊之处在于它是整 个分布式系统的协调者和全局入口,也意味着它的可用性,可靠性,可观测性等分布式系统指标影 响整个分布式系统的运行。历史上,这个系统在阿里也触发过大故障,经历过数次血与火的考验。 在阿里数次架构升级中,Nacos 都做了大量的功能迭代,用来支持阿里的异地多活,容灾演练,容 器化,Serverless 化。Nacos 经过阿里内部锤炼十年以上,各项指标已经及其先进,稳定,为服务 服务端进行创建并进行管理的,必须保证大部分的节点都保存了此配 置数据才能认为配置被成功保存了,否则就会丢失配置的变更,如果出现这种情况,问题是很严重 的,如果是发布重要配置变更出现了丢失变更动作的情况,那多半就要引起严重的现网故障了,因 此对于配置数据的管理,是必须要求集群中大部分的节点是强⼀致的,而这里的话只能使用强⼀致 性共识算法。 为什么是 Raft 和 Distro 呢 对于强⼀致性共识算法,当前工业生产中,最多使用的就是 健康状态、权重等属性。随着服务规模的扩大,渐渐的又需要在整个服务级别设定⼀些权限规则、 以及对所有实例都生效的⼀些开关,于是在服务级别又会设立⼀些属性。再往后,我们又发现单个 服务的实例又会有划分为多个子集的需求,例如⼀个服务是多机房部署的,那么可能需要对每个机 房的实例做不同的配置,这样又需要在服务和实例之间再设定⼀个数据级别。 65 > Nacos 架构 Zookeeper 没有针对服务发现设计数据模型,它的数据是以⼀种更加抽象的树形0 码力 | 326 页 | 12.83 MB | 9 月前3
分布式异地多活架构实践之路• 实际应用效果 • 未来规划 单机房遇到的问题 可用性低 响应时间慢 系统扩容难 可用性低 响应时间慢 系统扩容难 大纲 • 产品发展中遇到的问题 • 异地多活存在哪些技术挑战 • 讯飞输入法解决方案 • 实际应用效果 • 后续规划 技术挑战 几十毫秒的延迟; 跨机房性能较慢 机房天然延迟 专线费用高; 专线不稳定 跨机房专线问题 依赖小服务,有一 定改造成本; Servers Servers Servers MS MS GSLB MS 上报/探测 上报 上报 上报/探测 上报/探测 上报 获取入口地址 服务访问 根据运行情况进行负载均衡/踢出故障入口 入口 入口 入口 三地同步/调用 核心业务异地多活 核心系统 非核心系统 原有系统 单向依 赖 传统DNS调度存在问题 LocalDNS 智能DNS (权威域名 服务器) 获取服务IP IP请求 DNS劫持严重 用户设置DNS服务器 DNS各级缓存 DNSTTL不遵循 EDNS普及缓慢 根据用户IP来 进行运营商区 域的调度 结果:无法就近返回最优的机房IP、机房之间负载不均衡、机房异常后无法快速容灾 精准流量调度-全局 HTTPDNS LocalDNS 智能DNS 合肥IDC 北京IDC 广州IDC 弱依赖,可控 SDK封装: 重点域名预解析 缓存域名解析结果(sp、0 码力 | 36 页 | 1.66 MB | 1 年前3
康彬-基于微服务的混合云和同城双活实践registry data_proxy LB DNS app/browser nginx-Proxy nginx-Proxy data(r) 同城双活的探索 未来的担忧 单机房 如果发生机房级的灾难怎么办? 单集群 随着流量越来越大,集群规模 越来越大,怎么破? 单元化&多活的范围 boss 客服系统 销售系统 风控审核 催收系统 政策管理 prod devops 用户增长 发布系统 故障时,只影响内 部办公相关的公司 经营活动,不影响 用户下单交易 故障时,间接或部分影响用户 下单交易,但有降级方案来缓 冲、减少影响 故障时,只影响日 常研发运维活动的 进行,不影响用户 下单交易 故障时,直接影响用户下单交 易,且没有降级方案来缓冲、 减少影响 …… 财务系统 招聘系统 …… 美好的愿望 中心机房 registry 全站业务服务 全站业务服务 data(r/w) web 核心交易平台 风控审核平台 data_proxy 单元机房 registry data(r) web data_proxy registry_sync 电商单元 核心交易平台 风控审核平台 残酷的现实 缺乏按用户维度的流量调度能力 LB Nginx-Proxy Nginx-Proxy 自建IDC 云IDC 3 2 1 60 码力 | 47 页 | 6.09 MB | 1 年前3
美团点评2018技术年货《深度剖析开源分布式监控 CAT》 产品价值 产品价值 减少故障发现时间。 降低故障定位成本。 辅助应用程序优化。 技术优势 技术优势 实时处理:信息的价值会随时间锐减,尤其是在事故处理过程中。 全量数据:全量采集指标数据,便于深度分析故障案例。 高可用:故障的还原与问题定位,需要高可用监控来支撑。 故障容忍:故障不影响业务正常运转、对业务透明。 高吞吐:海量监控数据的收集,需要高吞吐能力做保证。 的这行注释掉,本以为会“大功告成”,但没想到仅仅过了几天,5xx告警又来“敲门”。看来,这个问题并 没我们最初想象的那么简单。 阶段2:可疑日志浮现 阶段2:可疑日志浮现 接下来,我们只能硬着头皮去查日志,特别是故障发生点前后的日志,于是又发现了一处可疑的地方: 可以看到:在极短的时间内,狂打 failed to allocate 64(bytes) of direct memory(...) 日志 (瞬间 和性能统计等功能。本文主要讲述Oceanus如何通过策略抽象、查询、渲染和分组动态更新,实现HTTP 请求的定制化路由。 随着公司业务的高速发展,路由场景也越来越复杂。比如: 团购秒杀要灵活控制压测流量,实现线上服务单节点、各机房、各地域等多维度的压测。 外卖业务要做流量隔离,把北方地域的流量转发到分组a,南方地域的流量转发到分组b。 酒旅业务要对App新版本进行灰度,让千分之一的用户试用新版本,其他用户访问老版本。0 码力 | 229 页 | 61.61 MB | 1 年前3
Go在数据库中间件的应用两年通信设备开发经验,四年互联网 • 五年C/C++使用经验,一年Golang 2 CONTENTS • 程序开发的需求 • Golang特性 • Go开发mysql中间件 • 整体方案 • 分表路由 • 故障切换 • 平滑扩容 • 系统运维 3 程序开发的需求 • 语言特性精炼,容易入门 • 开发效率高,代码逻辑清晰 • 运行性能强,节省机器资源 • 部署维护方便 • 生态圈完善 4 9 故障主备切换 • 故障情形 • 从节点挂掉:进行剔除下线处理 • 主节点挂掉,机器存活:通过binlog恢复数据,提升备为主 • 主节点挂掉,机器不存活:采用Relaylog恢复数据,提升备为主 • 部署模式 • 一主多从 • 双主多从 10 故障主备切换 • 一主多从模式 master slave slave slave slave 机房A 机房B Dead-Master 日志 Latest-Slave与Slave差异 日志 Master故障时试图通过Rsync拉取Binlog,最大程度保 证数据不丢失; Slave之间的数据差异通过中继日志恢复。 • 数据恢复工作原理 11 故障主备切换 • 双主多从模式 master slave slave slave slave 机房A 机房B master 12 在线平滑扩容 • 数据迁移形式 •0 码力 | 17 页 | 4.02 MB | 1 年前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践分钟级 弹性扩缩容 - 支持 性能 独占 独占 (优于普通ECS) 硬件故障率 硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟,天]成本 效率 稳定云化架构 物理机 + 本地存储 + Underlay网 络 神龙/ECS + 远程存储 + Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统 • 基础环境一致性故障自愈 (1-5-10) • 监控、故障发现 (1-5) • 本地检测 (walle, NPD) + 外部系统 (IDC、aliyun) • SLI、SLO、SLA • 钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine0 码力 | 21 页 | 7.81 MB | 6 月前3
Service Mesh的实践分享侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能 无侵入性。应用自行调用 运维难度 难度大。客户端的问题会对 应用直接产生影响,耦合太 重 难度小。Sidecar故障可以将流量临时切到 remote proxy解决 难度小。集群通过LVS接入,单 台机故障可以下线 升级难度 难度极大。需要客户端修改 代码、发布、上线。 难度小。切换流量到remote proxy可以实 现用户无感知的无损升级。 难度小。通过LVS摘流量滚动升 紧张的情况下; 而且还容器导致资源浪费(sidecar的使用率问题) 影响小。宿主机预留部分资源启动daemonset 即可 运维难度 难度大。Sidecar故障会影响同一个pod的业务容器,同 生共死 难度小。Sidecar故障可以将流量临时切到 remote proxy解决 升级难度 难度大。升级Sidecar需要业务容器一起发布,协调成本 高,而且全量升级sidecar对整个系统的动荡太大 规则路由、标签路由、邻近机房 路由、Hash路由、基于权重的路 由、熔断、健康探测、超时重试、 限流降级等等 • 契约化治理,服务接口变更diff并 通知上游 • 环境无关,物理机、云、测试机 器、本机都能跑实践中踩过的坑 我是作者名称ZooKeeper的强耦合 • 初始设计没有抽象服务注册发现和服务配 置的接口,直接操作ZK并且依赖了ZK的特 性和原语 • ZK弊端显现 • 跨机房多活问题 •0 码力 | 30 页 | 4.80 MB | 6 月前3
共 557 条
- 1
- 2
- 3
- 4
- 5
- 6
- 56













