集群容器化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

CurveFS ChunkID持久化

chunkid 持久化© XXX Page 2 of 3 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 3. 4. 1. 1. 1. 2. 1. 2. 3. 4. 3. 2. 背景将原有的获取chunkid的方法从space迁入mds中，并持久化写入etcd中；只考虑单 ChunkIDGenerator 类对象，方法 AllocateS3Chunk 调用 ChunkIDGenerator对象的GenChunkID方法； ChunkIDGenerator 类构造函数初始化 init 函数：用于初始化或者更改 ChunkIdAllocatorImpl 的一些配置。但是这些配置不会立即生效，而是等到当前 chunkId池枯竭时才会生效。析构函数 GenChunkID 申请的chunkID池是否枯竭？

0 码力 | 3 页 | 79.38 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+----- -----+----------------+---------+ 持久化文件字段字节数说明 CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当

0 码力 | 12 页 | 384.47 KB | 6 月前
3
Curve核心组件之Client - 网易数帆

01 02 03 04 Client总体介绍热升级NEBD总体介绍新版本Client/NEBD性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 on API https://github.com/opencurve/curve-qemu-block-driver NBD：实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储 CSI插件也已经开源： https://github.com/opencurve/curve-csi CLIENT上层应用CLIENT虚拟块设备CLIENT主要功能  提供接口复制组所在的chunkserver列表  复制组的leader信息CLIENT IO流程逻辑chunk与物理chunk映射关系物理chunk所属的复制组(copyset)  由MDS分配并持久化，client拆分用户请求时会获取并进行缓存  为了减少元数据量，MDS一次会连续分配 1G范围内的映射关系，称为SegmentCLIENT IO流程复制组所在的chunkserver列表

0 码力 | 27 页 | 1.57 MB | 6 月前
3
Curve质量监控与运维 - 网易数帆

运维——保障Curve始终稳定高效运行。质量 ✓ 质量管理体系（设计、开发、review、CI） ✓ 测试方法论（单元测试、集成测试、系统测试）监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示运维 ✓ 运维特性（易部署、易升级、自治） ✓ 运维工具（部署工具、管理工具） 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量异常自动化测试混沌测试（每周一次） CI测试（编译、静态检查、单元测试、集成测试、覆盖率80%卡点）邮件通知 Curve所有代码均在github托管。新代码需要通过CI测试和code review才能合入master分支，确保新合入代码的功能、正确性、规范性等都有基本保障；而每日运行的dailybuild测试在 CI测试基础上增加了异常自动化测试和混沌测试，确保master分支代码的单元测试 1300+用例行覆盖80%+，分支覆盖70%+  集成测试 Given When Then 设计方法 500+用例  异常测试 40+自动化用例  混沌测试 20轮自动化随机故障注入 12/33单元测试单元测试是软件开发的过程中最基本的测试，它用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 curve通过lcov统计代码覆盖率，衡量单元测试的完备程度，如下图所示：

0 码力 | 33 页 | 2.64 MB | 6 月前
3
Raft在Curve存储中的工程实践

成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构 • 对接OpenStack平台为云主机提供高性能块存储服务 • 对接Kubernetes为其提供RWO、RWX等类型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供成为领导者。 • Follower: 响应来自其他服务器的请求，如果接受不到消息，就变成候选人并发起一次选举。 • 时间被划分成一个个的任期，每个任期开始都是一次选举。 • 选举成功，领导⼈会管理整个集群直到任期结束。 • 选举失败，这个任期就会没有领导⼈⽽结束。 raft选举leader raft任期RAFT协议简介 raft复制状态机 1. leader收到客户端的请求。 2. le 点初始状态一致的时候，保证节点之间状态一致。 raft日志复制RAFT协议简介 raft配置变更 • 配置：加入一致性算法的服务器集合。 • 集群的配置不可避免会发生变更，比如替换宕机的机器。直接配置变更可能出现双主问题 • 共同一致（joint consensus） • 集群先切换到一个过渡的配置(old + new)，一旦共同一致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve设计要点

• 异常场景抖动较大（比如慢盘场景） • 去中心节点设计在集群不均衡的情况下需要人工运维 • 基于通用分布式存储构建上层存储服务背景 01 02 03 04 总体设计系统特性近期规划基本架构 • 元数据节点 MDS 管理元数据信息收集集群状态信息，自动调度基本架构 • 元数据节点 MDS 管理元数据信息收集集群状态信息，自动调度 • 数据节点 Chunkserver Chunkserver 数据存储数据一致性基本架构 • 元数据节点 MDS 管理元数据信息收集集群状态信息，自动调度 • 数据节点 Chunkserver 数据存储副本一致性 • 客户端 Client 对元数据增删改查对数据增删改查基本架构 • 快照克隆服务器独立于核心服务储到支持S3接口的对象存储，不限制数量异步快照、增量快照从快照/镜像克隆 ( lazy/非lazy ) 从快照回滚数据组织形式选主，实现高可用高可用 chunkserver 使用raft，2N + 1 个副本允许 N 副本异常自治 • 自动故障恢复 • 多对多，恢复时间短 • 精确的流量控制，对io几乎无影响自治 • 集群负载和资源均衡 • leader copyset scatter-width • 无需人工干预 • 对io影响几乎无影响易运维 • 升级秒级影响 • 客户端采用CS架构 • NEBD Client:

0 码力 | 35 页 | 2.03 MB | 6 月前
3
CurveFS Copyset与FS对应关系

partition和data partition。meta partition管理的元数据，data partition管理数据。meta partition管理inode和dentry信息。创建一个文件系统时，如何初始化meta partition？ master\cluster.go， chubaofs的文件系统使用volume的来表示，在创建一个文件系统的时候，会创建3个meta partition和10个data 应关系 curvefs的元数据的分片，需要考虑到在创建inode的时候，其实是不知道inodeid的，在创建完成之后，才有inodeid。inodeid的分配最好下放到各个分片去进行处理。否则整个集群的inode都去一个地方获取id会造成巨大的锁开销，这个是不能接受的。 curve块设备的元数据管理，在分配数据的时候，offset一开始就是知道的，这是和curvefs分配很大的一个不同点。 pyset 带来的copyset数量过多影响性能的问题。 3.3 copyset个数是否可以动态调整？根据copyset个数是否可以动态调整，有两种实现。一种是curve块存储方案，在集群初始化的时候，把所有的copyset创建好。采用这种方式，可以采用hash的方式去确定inode的分片。比如说，， copysetid = (fsid + inodeid << shift ) %

0 码力 | 19 页 | 383.29 KB | 6 月前
3
新一代云原生分布式存储

映射信息无需记录，直接通过计算获得 • 伪随机算法在服务器数量特别大的时候接近均衡 • 节点故障（DiskNums）变更会涉及其他数据的迁移有中心节点：持久化对应关系 • 需要将数据分布（元数据）持久化 • 中心节点感知集群的信息，进行资源实时调度 • 节点故障不会涉及其他的数据迁移 KEY (Offset, Len) VALUE (DiskID) (0, 4MB) 70 (4MB io抖动（一致性协议）：异常场景（比如阵列卡一致性巡检，坏盘，慢盘，网络异常），服务升级 • 性能差（一致性协议）：在通用硬件下，无法支撑数据库、kafka等中间件对存储性能和稳定性要求 • 容量不均衡（数据放置）：集群各节点容量不均衡需要人为干预 • 上述问题和架构涉及、核心功能的选型有关，在已有开源版本上改进代价很大分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 Quorum一致性协议 • 大多数副本写完成返回客户端 • 延迟取决于所有副本中最快的大多数主要亮点高性能更稳定跟各更稳定具备可视化的开发页面，直观查看任务运行情况，数据开发方便，系统运维方便易运维具备可视化的开发页面，直观查看任务运行情况，数据开发方便，系统运维方便高质量基于在架构上的选择和优秀的工程实践，Curve 在性能、运维、稳定性、工程实践质量上都优于Ceph主要亮点

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve 分布式存储设计

benchmarkSQL 每分钟事务数提升39% 2. pgbench 延迟降低21% TPS提升26% 研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务 3. iSCSI协议 4. 容器云块存储(CSI) 应用场景Curve块存储 1. 高可用性/高可靠性 (易运维) 2. RAFT一致性协议 3. CopySet分配算法 4. 拓扑结构 5. 高性能 6. chunkfilepool server表示物理服务器 4. chunkserver物理服务器上的服务实例拓扑结构Curve块存储 1. Curve块存储将虚拟块设备映射到文件 2. 每个文件包含的chunk分散在集群的存储节点 3. chunkserver按照故障域分组 4. copyset中的节点属于不同的故障域数据组织Curve块存储 IO流程Curve块存储 1. chunkserver负责数据的存储

0 码力 | 20 页 | 4.13 MB | 6 月前
3
Curve核心组件之chunkserver

03 04 ChunkServer架构 ChunkServer核心模块新版本ChunkServer性能优化CURVE基本架构 • 元数据节点 MDS • 管理和存储元数据信息 • 感知集群状态，合理调度 • 数据节点 Chunkserver • 数据存储 • 副本一致性，raft • 客户端 Client • 对元数据增删改查 • 对数据增删改查 • 快照克隆服务器CURVE基本架构 de封装了braft的Node，并实现了braft的状态机，完成与raft的交互。详细交互流程后面展开。 CopysetNodeManager负责管理 CopysetNode的创建、初始化、删除等 ChunkServer架构心跳模块有两方面的职责： 1、向MDS节点上报心跳，心跳中包括 ChunkServer本身的一些统计信息 2、解析MDS的心跳response中的raft ChunkserverID，token，chunkserver持久化这些信息，并在后续心跳上报时携带这些信息。ChunkServer核心模块-CopysetNode 写请求： 1. Client发送写请求给Leader ChunkServer 2. 请求封装，提交给Raft node 3. 本地持久化entry的同时发送给其他peer 4. 本地持久化log entry成功，并且有一个peer也落盘成功，则commit

0 码力 | 29 页 | 1.61 MB | 6 月前
3

共 26 条前往

页

分类

语言

格式