Curve核心组件之Client - 网易数帆
数据面:AioWrite/AioRead、Write/Read 控制面:Create/Delete、Open/Close、Rename等 IO处理:转换、拆分、合并 元数据获取及缓存 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 复制组所在的chunkserver列表 复制组的leader信息 Failover支持 用户下发一个写请求 off: 8M len: 16M 请求落在两个逻辑chunk上,所以 请求会被拆分成两个子请求: ChunkIdx 1, off: 8M len 8M ChunkIdx 2, off: 0 len 8MCLIENT IO流程 子请求由哪个chunkserver处理,依赖以 下信息: 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 物理chunk所属的复制组(copyset) 复制组所在的chunkserver列表 复制组的leader信息CLIENT IO流程 逻辑chunk与物理chunk映射关系 物理chunk所属的复制组(copyset) 由MDS分配并持久化,client拆分用户请 求时会获取并进行缓存 为了减少元数据量,MDS一次会连续分配 1G范围内的映射关系,称为SegmentCLIENT IO流程0 码力 | 27 页 | 1.57 MB | 5 月前3CurveFS方案设计
XXX Page 8 of 14 快照的cow© XXX Page 9 of 14 优势在于可以做lazy-copy,速度很快。 劣势在于当前的快照逻辑复用需要做较大变动 方案二:文件系统快照 复用当前的逻辑,文件系统快照就是当前卷的快照,因此数据的快照就已经有了,需要的就是元数据的快照。© XXX Page 10 of 14 1. 1. 2. 3. 2 apply的时候是以kv的方式写入到文件,因此可以复用这个逻辑。 客户端感知文件版本号。如果版本号变更,就触发raft的sanpshot,并且只apply小于版本号的部分 这种方式相当于每次都是全量缓存当前元数据,不做增量快照,考虑到转储逻辑,这也是可以接受的 对比这两种方案,第一种方案对于copy场景是友好的,但需要重新实现一套快照逻辑;第二种方案的改动和实现相对简单,并且对于需要备份的场 文件系统的元数据所在的copyset分配策略(前期可以考虑都分配到同一个copyset上) metaserver inode/dentry的内存组织形式 数据持久化 client curvefs 的 client 开发 快照逻辑 各接口实现元数据交互流程 元数据设计 元数据设计分以下几个部分 inode 和 dentry 的数据结构( inode 和 dentry 两个结构描述 还是 由一个dentry描述所有信息)0 码力 | 14 页 | 619.32 KB | 5 月前3Curve文件系统元数据持久化方案设计
的场景下,每个 raft 实例需要独立的快照并不合适 如果改造 redis,初步评估了下,其工作量要比自己实现持久化的逻辑要大一些,改造主要是为了让 redis 提供单独 dump/load 一个 DB 的功能: 如果改造,dump/load 的逻辑都得动,而且会牵扯到一些其他逻辑(如主从复制,因为 redis 主从全量复制发送的就是一整个 RDB 文件,即使我们不需要这个功能,这部分代码也是有耦合的)© 合的)© XXX Page 11 of 12 1. 2. 3. 如果自己实现,只是一个简单的 sava/load 逻辑,比较清晰 redis 中有许多数据结构可供使用,如 (哈希、列表、set、sort_set),但对于目前的需求来说,我们内存数据结构使用的是 C++ STL 中的哈希表(unsorted_map),之后有可能根据需求换成 B+ 树或跳表,但是 redis 中的这些数据结构我们是不需要的0 码力 | 12 页 | 384.47 KB | 5 月前3Curve核心组件之mds – 网易数帆
归属一个于server。 • Chunkserver: 用于抽象描述物理服务器上的一块物理磁盘 (SSD),chunkserver以一块磁盘作为最小的服务单元。TOPOLOGY curve在上物理pool之上又引入逻辑pool的概念,以实现统一存储系统的需求,即在单个存储系统中多副 本PageFile支持块设备、三副本AppendFile(待开发)支持在线对象存储、AppendECFile(待开发)支持 近线对象存储可以共存。 隔离(待开发)。TOPOLOGY Topology的实际例子,右侧是topo配置文件: 集群有一个物理pool,由3个zone组成,每个zone有1台server。 在物理pool上,还创建了一个逻辑pool,逻辑pool使用3个zone,采用 3副本,有100个copyset。 cluster pool1 zone1 zone2 zone3 server1 server2 server3 1920 码力 | 23 页 | 1.74 MB | 5 月前3curvefs client删除文件和目录功能设计
,以便于扫描进程清理到期的inode。 那么需要实现类似freelist一样的东西来保存当前已经"被删"的inode id 由于inode放在原地,那么由于dentry已经被删除,那么查询工具就较为复杂,不能复用原有的client逻辑,需要组织成moosefs那样的meta文件系统可能需要引入额外的复杂性,但是依然可以实现简单的 工具查询。 由于该方案,删除的inode是分散于每个partition中,那么查询工具可能需要遍历所 Trash机制: 需要实现 接口, 进行nlink–,当nlink==0时,将inodeid 放入trash unlink 需要实现trash逻辑,每个parition 实现一个trash将nlink==0 的 inode记录下来,并实现 inode的逻辑,定期清理需要对接上s3实际删除和卷的删除(卷的部分可先不做,预留接口) 后台定期扫描清理 需要实现强制清理的接口; 为工具实现查询trash接口;0 码力 | 15 页 | 325.42 KB | 5 月前3Curve设计要点
提供不同文件类型支撑不同上层应用数据组织形式 • PageFile/AppendFile/AppendECFile • Segment • 逻辑概念,空间分配的基本单元 (减少元数据数量) • 多个连续地址空间chunk(物理文件)的聚合数据组织形式 • CopySet • 逻辑概念 • 减少元数据数量 • 数据放置的基本单元 • 提高数据可靠性 • 包含多个chunk • 减少复制组数量 类似Ceph中的PG0 码力 | 35 页 | 2.03 MB | 5 月前3CurveFS对接S3方案设计
apter为原来curve块存储就有的模块,负责将快照数据上传到S3,这里我们对于s3的操作主要复用了这 个模块。该模块使用的AWS的sdk,并没有实现append接口 write流程 主要流程逻辑见上面的流程图,对流程补充有以下几点: 1.对于overlap的场景,会将inode中的versio+1,但是不会处理被overlap的相关数据,由后台进行处理。 2.如果是带了append fl d操作。 3.将read的offset,len和s3info可能交互的场景分别进行处理,分别获取要读取的每个S3ChunkInfo的offset len,封装到request中,具体可见代码的处理逻辑。 4.根据request进一步获取到s3 object去读取对象,将结果保存在response中。 5.最后根据所有的response将buff整合,返回给上层0 码力 | 11 页 | 145.77 KB | 5 月前3BRPC与UCX集成指南
速40 Ucp Worker ●创建UcpWorker,封装ucp worker和逻辑。 ●是整个ucp实现RDMA的核心。 ●系统可以有多个worker,共享使用一个UcpContext。 ●不同的连接分配到不同的worker,一般情况下只需要一个worker足够应付网络通讯。 ●worker逻辑在一个pthread中运行。41 1个 UcpContext: N个 UcpWorker420 码力 | 66 页 | 16.29 MB | 5 月前3Raft在Curve存储中的工程实践
raft协议提出之后,涌现出了非常多的实现,比如etcd,braft,tikv等。 • braft是raft的一个实现,实现了raft的一致性协议和复制状态机,而且提供了一种通用的基础库。基 于braft,可以基于自己的业务逻辑构建自己的分布式系统。 • braft本身不提供server功能,需要业务自己实现状态机。 Node(一个raft实例) int init(const NodeOptions& options); 设备上的数据。 • snapshotCloneServer:卷的快照克隆服务,持久 化到S3中。Curve块存储RAFT应用 数据分布 • 每个raft实例用一个copyset管理,copyset是个逻辑 概念。写入chunk的数据,由copyset对应的raft完成 3副本的写入。 • multi-raft:copyset和chunkserver是多对多的关系 • 每个copyset由3个chunkserver组成0 码力 | 29 页 | 2.20 MB | 5 月前3Curve 分布式存储设计
性能设计Curve块存储 在线升级设计 1. 客户端分成NebdClient与 NebdServer两部分 2. NebdClient只做简单的转发 3. NebdServer实现大部分的客 户端逻辑Curve块存储 故障对I/O抖动延迟的影响 FAULTS CASE CURVE I/O 抖动Curve文件存储 1. 元数据服务 2. 高性能 3. 可扩展易运维 4. 云原生 设计目标Curve文件存储0 码力 | 20 页 | 4.13 MB | 5 月前3
共 15 条
- 1
- 2