逻辑模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve核心组件之Client - 网易数帆

数据面：AioWrite/AioRead、Write/Read  控制面：Create/Delete、Open/Close、Rename等  IO处理：转换、拆分、合并  元数据获取及缓存  逻辑chunk与物理chunk映射关系  物理chunk所属的复制组(copyset)  复制组所在的chunkserver列表  复制组的leader信息  Failover支持  用户下发一个写请求 off: 8M len: 16M 请求落在两个逻辑chunk上，所以请求会被拆分成两个子请求：  ChunkIdx 1, off: 8M len 8M  ChunkIdx 2, off: 0 len 8MCLIENT IO流程子请求由哪个chunkserver处理，依赖以下信息：  逻辑chunk与物理chunk映射关系  物理chunk所属的复制组(copyset) 物理chunk所属的复制组(copyset)  复制组所在的chunkserver列表  复制组的leader信息CLIENT IO流程逻辑chunk与物理chunk映射关系物理chunk所属的复制组(copyset)  由MDS分配并持久化，client拆分用户请求时会获取并进行缓存  为了减少元数据量，MDS一次会连续分配 1G范围内的映射关系，称为SegmentCLIENT IO流程

0 码力 | 27 页 | 1.57 MB | 5 月前
3
CurveFS方案设计

XXX Page 8 of 14 快照的cow© XXX Page 9 of 14 优势在于可以做lazy-copy，速度很快。劣势在于当前的快照逻辑复用需要做较大变动方案二：文件系统快照复用当前的逻辑，文件系统快照就是当前卷的快照，因此数据的快照就已经有了，需要的就是元数据的快照。© XXX Page 10 of 14 1. 1. 2. 3. 2 apply的时候是以kv的方式写入到文件，因此可以复用这个逻辑。客户端感知文件版本号。如果版本号变更，就触发raft的sanpshot，并且只apply小于版本号的部分这种方式相当于每次都是全量缓存当前元数据，不做增量快照，考虑到转储逻辑，这也是可以接受的对比这两种方案，第一种方案对于copy场景是友好的，但需要重新实现一套快照逻辑；第二种方案的改动和实现相对简单，并且对于需要备份的场文件系统的元数据所在的copyset分配策略（前期可以考虑都分配到同一个copyset上） metaserver inode/dentry的内存组织形式数据持久化 client curvefs 的 client 开发快照逻辑各接口实现元数据交互流程元数据设计元数据设计分以下几个部分 inode 和 dentry 的数据结构（ inode 和 dentry 两个结构描述还是由一个dentry描述所有信息）

0 码力 | 14 页 | 619.32 KB | 5 月前
3
Curve文件系统元数据持久化方案设计

的场景下，每个 raft 实例需要独立的快照并不合适如果改造 redis，初步评估了下，其工作量要比自己实现持久化的逻辑要大一些，改造主要是为了让 redis 提供单独 dump/load 一个 DB 的功能：如果改造，dump/load 的逻辑都得动，而且会牵扯到一些其他逻辑（如主从复制，因为 redis 主从全量复制发送的就是一整个 RDB 文件，即使我们不需要这个功能，这部分代码也是有耦合的）© 合的）© XXX Page 11 of 12 1. 2. 3. 如果自己实现，只是一个简单的 sava/load 逻辑，比较清晰 redis 中有许多数据结构可供使用，如 (哈希、列表、set、sort_set)，但对于目前的需求来说，我们内存数据结构使用的是 C++ STL 中的哈希表（unsorted_map），之后有可能根据需求换成 B+ 树或跳表，但是 redis 中的这些数据结构我们是不需要的

0 码力 | 12 页 | 384.47 KB | 5 月前
3
Curve核心组件之mds – 网易数帆

归属一个于server。 • Chunkserver: 用于抽象描述物理服务器上的一块物理磁盘 (SSD)，chunkserver以一块磁盘作为最小的服务单元。TOPOLOGY curve在上物理pool之上又引入逻辑pool的概念，以实现统一存储系统的需求，即在单个存储系统中多副本PageFile支持块设备、三副本AppendFile（待开发）支持在线对象存储、AppendECFile（待开发）支持近线对象存储可以共存。隔离（待开发）。TOPOLOGY Topology的实际例子，右侧是topo配置文件：集群有一个物理pool，由3个zone组成，每个zone有1台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用 3副本，有100个copyset。 cluster pool1 zone1 zone2 zone3 server1 server2 server3 192

0 码力 | 23 页 | 1.74 MB | 5 月前
3
curvefs client删除文件和目录功能设计

，以便于扫描进程清理到期的inode。那么需要实现类似freelist一样的东西来保存当前已经"被删"的inode id 由于inode放在原地，那么由于dentry已经被删除，那么查询工具就较为复杂，不能复用原有的client逻辑，需要组织成moosefs那样的meta文件系统可能需要引入额外的复杂性，但是依然可以实现简单的工具查询。由于该方案，删除的inode是分散于每个partition中，那么查询工具可能需要遍历所 Trash机制：需要实现接口，进行nlink–，当nlink==0时，将inodeid 放入trash unlink 需要实现trash逻辑，每个parition 实现一个trash将nlink==0 的 inode记录下来，并实现 inode的逻辑，定期清理需要对接上s3实际删除和卷的删除（卷的部分可先不做，预留接口）后台定期扫描清理需要实现强制清理的接口；为工具实现查询trash接口;

0 码力 | 15 页 | 325.42 KB | 5 月前
3
Curve设计要点

提供不同文件类型支撑不同上层应用数据组织形式 • PageFile/AppendFile/AppendECFile • Segment • 逻辑概念，空间分配的基本单元（减少元数据数量） • 多个连续地址空间chunk（物理文件）的聚合数据组织形式 • CopySet • 逻辑概念 • 减少元数据数量 • 数据放置的基本单元 • 提高数据可靠性 • 包含多个chunk • 减少复制组数量类似Ceph中的PG

0 码力 | 35 页 | 2.03 MB | 5 月前
3
CurveFS对接S3方案设计

apter为原来curve块存储就有的模块，负责将快照数据上传到S3，这里我们对于s3的操作主要复用了这个模块。该模块使用的AWS的sdk，并没有实现append接口 write流程主要流程逻辑见上面的流程图，对流程补充有以下几点： 1.对于overlap的场景，会将inode中的versio+1，但是不会处理被overlap的相关数据，由后台进行处理。 2.如果是带了append fl d操作。 3.将read的offset，len和s3info可能交互的场景分别进行处理，分别获取要读取的每个S3ChunkInfo的offset len，封装到request中，具体可见代码的处理逻辑。 4.根据request进一步获取到s3 object去读取对象，将结果保存在response中。 5.最后根据所有的response将buff整合，返回给上层

0 码力 | 11 页 | 145.77 KB | 5 月前
3
BRPC与UCX集成指南

速40 Ucp Worker ●创建UcpWorker，封装ucp worker和逻辑。 ●是整个ucp实现RDMA的核心。 ●系统可以有多个worker，共享使用一个UcpContext。 ●不同的连接分配到不同的worker,一般情况下只需要一个worker足够应付网络通讯。 ●worker逻辑在一个pthread中运行。41 1个 UcpContext: N个 UcpWorker42

0 码力 | 66 页 | 16.29 MB | 5 月前
3
Raft在Curve存储中的工程实践

raft协议提出之后，涌现出了非常多的实现，比如etcd，braft，tikv等。 • braft是raft的一个实现，实现了raft的一致性协议和复制状态机，而且提供了一种通用的基础库。基于braft，可以基于自己的业务逻辑构建自己的分布式系统。 • braft本身不提供server功能，需要业务自己实现状态机。 Node（一个raft实例） int init(const NodeOptions& options); 设备上的数据。 • snapshotCloneServer：卷的快照克隆服务，持久化到S3中。Curve块存储RAFT应用数据分布 • 每个raft实例用一个copyset管理，copyset是个逻辑概念。写入chunk的数据，由copyset对应的raft完成 3副本的写入。 • multi-raft：copyset和chunkserver是多对多的关系 • 每个copyset由3个chunkserver组成

0 码力 | 29 页 | 2.20 MB | 5 月前
3
Curve 分布式存储设计

性能设计Curve块存储在线升级设计 1. 客户端分成NebdClient与 NebdServer两部分 2. NebdClient只做简单的转发 3. NebdServer实现大部分的客户端逻辑Curve块存储故障对I/O抖动延迟的影响 FAULTS CASE CURVE I/O 抖动Curve文件存储 1. 元数据服务 2. 高性能 3. 可扩展易运维 4. 云原生设计目标Curve文件存储

0 码力 | 20 页 | 4.13 MB | 5 月前
3

共 15 条前往

页

分类

语言

格式

Curve核心组件之Client - 网易数帆

CurveFS方案设计

Curve文件系统元数据持久化方案设计

Curve核心组件之mds – 网易数帆

curvefs client删除文件和目录功能设计

Curve设计要点

CurveFS对接S3方案设计

BRPC与UCX集成指南

Raft在Curve存储中的工程实践

Curve 分布式存储设计