业务部署 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve质量监控与运维 - 网易数帆

质量管理体系（设计、开发、review、CI） ✓ 测试方法论（单元测试、集成测试、系统测试）监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示运维 ✓ 运维特性（易部署、易升级、自治） ✓ 运维工具（部署工具、管理工具） 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量软件质量的定义是：软件与明确地和隐含地定义的需求相一致的程度。 MDS SnapshotClone Server HTTP采集 bvar数据定时获取图表并发送邮件获取集群拓扑信息 Curve利用brpc内置的bvar组件生成监控指标，并使用部署在docker的三个组件进行监控指标的处理与展示：  Prometheus——面向云原生应用程序的开源的监控&报警工具，curve利用它进行监控指标的采集与存储。  Daily 获得某个bvar在一段时间内平均每秒的累加值。PerSecond也是会自动更新的衍生变量。 21/33监控指标的采集与存储 Curve使用开源的监控工具Prometheus采集监控指标，大致流程为： 1. 部署监控时，Curve根据集群信息生成配置文件，指定了 Prometheus的监控目标（包括Client、MDS、 ChunkServer、Etcd、物理节点等）。 2. Prometheus依据上述配置文件，发现相应服务。

0 码力 | 33 页 | 2.64 MB | 6 月前
3
MySQL 兼容性可以做到什么程度

阿里云数据库解决方案架构师为什么要兼容 MySQL 01 The longer you look back, the farther you can look forward.也从阿里巴巴的“去IOE”运动说起业务驱动下的分布式技术实践之路 5月17日，支付宝最后一台小型机下线标志去IOE落下帷幕首次双十一大考卡顿半分钟后稳定度过 7月，TDDL+AliSQL首次验证支持核心库无法弹性扩展成本高 02 If it looks like a duck, swims like a duck, and quacks like a duck, then it probably is a duck.业务系统上游 Single Source of Truth 问题背景数据孤岛怎么办？下游MySQL 怎么做 Binlog Maxwell DebeziumPolarDB-X 完全兼容 MySQL mysql-binlog-connector-java • Flink CDC 性能指标 • 25w rps • 8GB 大事务 • 5s 延迟* 下一步 • 验证更多工具 • GTID • 多流业务系统上游 Single Source of Truth 问题背景已有系统迁移怎么办？下游Demo for ReplicationPolarDB-X Replication 特性详情提供与

0 码力 | 18 页 | 3.02 MB | 6 月前
3
Curve设计要点

7 3.7 2.423 4K随机写 4K随机读 38% 34.5% 测试环境：6台服务器*20块SATA SSD，E5-2660 v4，256G，3副本场景高可用核心组件支持多实例部署，允许部分实例异常 MDS、Snapshotcloneserver 通过 etcd 选主，实现高可用高可用 chunkserver 使用raft，2N + 1 个副本允许 N 副本异常自治 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响易运维 • 升级秒级影响 • 客户端采用CS架构 • NEBD Client: 对接上层业务 • NEBD Server: 接受请求调用Curve Client处理 • 升级只需重启Server 秒级影响易运维 • 丰富的metric体系 • prometheus + grafana 丰富的metric体系 • prometheus + grafana 可视化 • 每日报表 • 丰富的数据定位问题 • 集群状态查询工具 • curve_ops_tool • 自动化部署工具 • 一键部署，一键升级高质量 • 良好的模块化和抽象设计 • 完善的测试体系 • 单元测试行覆盖80%+，分支覆盖70%+ • 集成测试 Given When Then 方法完备的测试用例集

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve 分布式存储设计

设计目标Curve文件存储 1. 兼顾性能与容量的机器学习场景 2. 快速跨云弹性发布的业务 3. 低成本大容量需求的业务 4. 中间件冷热数据自动分离 5. S3和POSIX统一访问需求主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 2. 完善混合云、公有云上部署架构 3. 完善高性能3副本存储引擎，支持混合盘 4. 文件存储支持数据存储到HDFS、rados等引擎

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Curve核心组件之mds – 网易数帆

er上的负载信息、 copyset信息等。 • Scheduler: 调度模块。用于自动容错和负载均衡。TOPOLOGY topology用于管理和组织机器，利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 1. 故障域的隔离：比如副本的放置分布在不同机器，不同机架，或是不同的交换机下面。 2. 隔离和共享：不同用户的数据可以实现固定物理资源的隔离和共享。 • pool: pool: 用于实现对机器资源进行物理隔离，server不能跨 Pool交互。运维上，建议以pool为单元进行物理资源的扩容。 • zone: 故障隔离的基本单元，一般来说属于不同zone的机器至少是部署在不同的机架，一个server必须归属于一个 zone。 • server: 用于抽象描述一台物理服务器，chunkserver必须归属一个于server。 • Chunkserver: 用于抽象描述物理服务器上的一块物理磁盘

0 码力 | 23 页 | 1.74 MB | 6 月前
3
新一代云原生分布式存储

大型主机成本高单点问题扩容困难各存储设备通过网络互联大规模弹性扩容底层构建在分布式存储之上云的概念成本：共用基础设施弹性：随意扩缩容速度：更快的构建发布业务底层构建在分布式存储之上云原生的概念：易用性：跨平台，超融合，弹性小型主机容量有限分布式存储的分类按照各种应用场景所需的存储接口分类对象存储文件存储块存储易运维运维场景 Curve Ceph 加盘对IO无影响秒级io影响服务端升级对IO无影响重启管控面IO无影响，重启osd io秒级影响客户端升级热升级，秒级抖动不支持热升级，需要业务停服集群监控丰富的metric metric类型较少主要亮点 — 更稳定异常场景 Curve Ceph 坏盘基本无抖动无明显抖动慢盘 io持续抖动，但util未100% io持续抖动，util持续100% link Curve 85.4% 89% curve Ceph 37.1% 43.3% ceph应用情况 Curve 在网易集团内有大规模的生产应用为核心业务提供稳定的存储服务，单集群存数万个卷，储容量PB级别  网易集团内部业务： • 网易严选，网易云音乐网易有道，网易游戏网易Lofter，云信在集团外有联合开发用户和测试用户

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve文件系统元数据管理

fsid+parentId+name , value : struct dentry；分别从不同场景上进行分析，curve文件系统的元数据应该有以下的操作： 1、系统加载的时候，元数据从持久化介质加载。 2、业务运行过程中，元数据的增删改查。 3、系统退出的时候，元数据持久化。© XXX Page 7 of 24 场景一：系统加载的时候，元数据从持久化介质中加载。元数据进行恢复的时候，有两种情况。我们的文件系统定位是一个高性能的通用文件系统，元数据的缓存倾向于全缓存。系统加载的时候从持久化介质中进行加载，需要把一条条持久化的记录加载到内存里。实现把string转化为inode结构体，再插入内存结构中。场景二：业务运行过程中，元数据的增删改查。如果采用raft的方式对元数据持久化进行保证，所有元数据的处理都是先写WAL，再修改内存结构。那么任何对元数据的增删改查，对应着一条记录，根据记录去修改内存数据。。场景三：系统退出的时候，元数据的持久化如果采用raft的方式对元数据持久化，任务数据的修改都先持久化再修改内存。那么就不存在的系统推出的时候对元数据持久化。对业务逻辑进行进一步抽象，忽略业务细节，会发现，元数据的内存管理需要提供这些功能。收到一条record，解析record，然后根据不同的opcode在内存对元数据进行处理。伪码如下：© XXX Page 8 of 24

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Raft在Curve存储中的工程实践

2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 • 底层存储使用Ceph块存储 • 稳定性挑战 • 算力平台kubernetes的迅速发展 • AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构 • 对接OpenStack平台为云主机提供高性能块存储服务 ft，tikv等。 • braft是raft的一个实现，实现了raft的一致性协议和复制状态机，而且提供了一种通用的基础库。基于braft，可以基于自己的业务逻辑构建自己的分布式系统。 • braft本身不提供server功能，需要业务自己实现状态机。 Node（一个raft实例） int init(const NodeOptions& options); void apply(const

0 码力 | 29 页 | 2.20 MB | 6 月前
3
CurveFS方案设计

blk=4k, 需要bitmap的大小为640MB blk=64k, 需要bitmap的大小为40MB 在设计过程中，对于每个文件系统，blk应该是可以根据业务形态来配置的 bitmap重建时间？如果通过获取所有inode，重建出当前的空间分配情况，我们常见的业务形态有以下两种： ① 在AI训练等场景，文件的目录层级较少，文件数量较多，文件较小。这种情况inode比较聚集，一般分布在几个复制组上。inode数量多。

0 码力 | 14 页 | 619.32 KB | 6 月前
3
Curve核心组件之Client - 网易数帆

U进程进行重启。NEBD 整体介绍在QEMU和Curve Client中间加入热升级模块，避免直接依赖热升级模块是CS结构：  NEBD Client(part1)：只包含轻量的业务逻辑，以链接库的形式提供给QEMU使用  NEBD Server(part2)：将NEBD Client的请求转发到Curve Client 升级过程只需要重启NEBD Server即可，IO可在

0 码力 | 27 页 | 1.57 MB | 6 月前
3

共 11 条前往

页

分类

语言

格式

Curve质量监控与运维 - 网易数帆

MySQL 兼容性可以做到什么程度

Curve设计要点

Curve 分布式存储设计

Curve核心组件之mds – 网易数帆

新一代云原生分布式存储

Curve文件系统元数据管理

Raft在Curve存储中的工程实践

CurveFS方案设计

Curve核心组件之Client - 网易数帆