Curve质量监控与运维 - 网易数帆## Curve质量、监控与运维 D I G I T A L S A I L 秦亦 网易数帆存储团队 Digital Sail Digital Digital Digital Digital Digital Digital Digital Digital Digital 01 背景 为用户服务——质量、监控和运维 02 Curve质量控制 质量管理体系 | 测试方法论 03 Curve监控体系 总体架构 | 指标生成 | 后端采集 | 可视化展示 04 Curve运维体系 Curve运维特性 | 运维工具 v1.0.0-rc0 ... ## Curve Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统: ☐ 高性能、低延迟 ☐ 当前实现了高性能块存储,对接OpenStack和K8s 监控——直观地展示Curve运行状态; ☐ 运维——保障Curve始终稳定高效运行。 ✓ 质量管理体系(设计、开发、review、CI) ## 质量 ✓ 测试方法论(单元测试、集成测试、系统测试) ✓ 监控架构 ## 监控 ✓ 指标采集、后端处理、可视化展示 ✓ 运维特性(易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) Digital 01 背景 为用户服务——质量、监控和运维 02 Curve质量控制0 码力 | 33 页 | 2.64 MB | 1 年前3
MySQL 数据库架构灾难恢复解决方案..... ## MySQL 数据库架构 灾难恢复解决方案 MySQL InnoDB Cluster Set 介绍 MySQL SE 罗伟文 …… …… …… …… …… ## Safe Harbor Statement 以下内容旨在概述我们的一般产品方向。它仅供参考,不得纳入任何合同。它并不提供任何材料、代码或功能的承诺,不应据此做出购买决策。Oracle产品描述的任何特性或功能 的开发、发布和时间安排仍由Oracle自行决定。 ## I T 灾难和中断:主要原因  停电是导致重大中断的最大原因 ## I T 灾难和中断:代价不断上升  ## 超过一半经历过代价超过10万美元的中断。 ## I T 灾难和中断:例子  5 小时的计算机中断代价 1.5 亿美元。该航空公司最终在停电当天取消了约0 码力 | 52 页 | 3.07 MB | 2 年前3
机器学习课程-温州大学-11机器学习-降维机器学习-降维 黄海广 副教授 2022年02月 ## 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。   - pool: 用于实现对机器资源进行物理隔离,server不能跨Pool交互。运维上,建议以pool为单元进行物理资源的扩容。 - zone: 故障隔离的基本单元,一般来说属于不同zone的机器至少是部署在不同的机架,一个server必须归属于一个zone。 - server: 通过chunkserver的定期心跳,检测chunkserver的在线状态(online, unstable, offline) - 记录chunkserver定期上报的状态信息(磁盘容量,磁盘负载,copyset负载等),以提供运维工具查看上述状态信息。 - 通过上述信息的定期更新,作为schedule模块进行均衡及配置变更的依据 - 通过chunkserver定期上报copyset的copyset的epoch,检测chun0 码力 | 23 页 | 1.74 MB | 1 年前3
1.3 Go practices in TiDB 姚维## Go Practices in TiDB 姚维 PingCAP wink@pingcap.com 探探 Gopher China 2019 ## Agenda - How to build a stable database - Schrodinger-test platform - Failpoint injection - Goroutine-leak testing ☐ concurrent testing ☐ large-scale cluster testing ☐ stability testing # ## Thanks! 该二维码7天内(5月2日前)有效,重新进入将更新0 码力 | 32 页 | 1.76 MB | 1 年前3
Redis开发运维实践指南目 录 谢 redis开发运维实践指南 述 数据操作 key操作 列出key 测试指定key是否存在 删除给定key 返回给定key的value类型 返回从当前数据库中随机选择的一个key 原子的重命名一个key Key的超时设置处理 字符串操作 设置key对应的值为string类型的value 获取key对应的string值 增减操作 追加字符串 截取字符串 改写字符串 返回子字符串 中文字符串处理 Key设计 超时设置 数据异常处理 内存考虑 延迟考虑 典型使用场景参考 客户端推荐 上线部署规划 内存规划 网卡RPS设置 服务器部署位置 持久化设置 多实例配置 具体设置参数 其他好用的配置技巧 常见运维操作 启动 停止 查看和修改配置 批量执行操作 选择数据库 清空数据库 重命名命令 执行lua脚本 设置密码 验证密码性能测试命令Redis-cli命令行其他操作持久化与备份恢复 RDB相关操作 AOF相关操作备份恢复 问题处理 一般处理流程 探测服务是否可用 探测服务延迟 监控正在请求执行的命令 查看统计信息 获取慢查询 查看客户端 查看日志 延迟检查 检查CPU情况 检查网络情况 检查redis整体情况 检查连接数 检查持久化 检查命令执行情况 内存检查 系统内存查看 系统swap内存查看 info查看内存 dump.rdb文件成生内存报告(rdb-tool) query在线分析 内存抽样分析 统计生产上比较大的key0 码力 | 316 页 | 5.04 MB | 1 月前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践## 云+社区技术沙龙 ## 腾讯智能运维(Metis)项目实践 张戎 机器学习高级研究员  张戎 腾讯云高级研究员 ## 张戎 腾讯云 云服务平台部 机器学习高级研究员 • 2015年毕业于新加坡国立大学数学专业,获博士学位; 月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 ## 目录 01 / 智能运维场景描述 整体介绍 02 / 单维时间序列分析 异常检测 03 / 多维时间序列分析 多维下钻 04 / Metis 的研究方向 展望未来 ## 基于机器学习的智能运维 ## 智能运维(AIOps) 












