自封装SO文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve文件系统元数据管理

© XXX Page 1 of 24 Curve文件系统元数据管理（已实现）© XXX Page 2 of 24 1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片照parentid分片 5.1.1 场景分析查找：查找/A/C。创建：/A/C不在，创建/A/C 删除文件：删除/A/C 删除目录：删除/A rename：rename /A/C到/B/E symbolic link： hardlink：生成一个hardlink /B/E，指向文件/A/C list：遍历/A目录 5.1.2 好处 5.1.2 问题 5.2 分片方式二：Inode按照i hardlink：生成一个hardlink /B/E，指向文件/A/C 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve文件系统空间分配方案

11 Curve文件系统空间分配方案（基于块的方案，已实现）© XXX Page 2 of 11 背景本地文件系统空间分配相关特性局部性延迟分配/Allocate-on-flush Inline file/data 空间分配整体设计空间分配流程特殊情况空间回收小文件处理并发问题文件系统扩容接口设计 RPC接口空间分配器接口背景根据，文件系统基于当前的，文件系统基于当前的块进行实现，所以需要设计基于块的空间分配器，用于分配并存储文件数据。 CurveFS方案设计（总体设计，只实现了部分）本地文件系统空间分配相关特性局部性尽量分配连续的磁盘空间，存储文件的数据。这一特性主要是针对HDD进行的优化，降低磁盘寻道时间。延迟分配/Allocate-on-flush 在sync/flush之前，尽可能多的积累更多的文件数据块才进行空间分配，一方面可以提高局部性，另一方面可以降低磁盘碎片。 file/data 几百字节的小文件不单独分配磁盘空间，直接把数据存放到文件的元数据中。针对上述的本地文件系统特性，Curve文件系统分配需要着重考虑。局部性虽然Curve是一个分布式文件系统，但是单个文件系统的容量可能会比较大，如果在空间分配时，不考虑局部性，inode中记录的extent数量很多，导致文件系统元数据量很大。© XXX Page 3 of 11 假如文件系统大小为1PiB，

0 码力 | 11 页 | 159.17 KB | 6 月前
3
curvefs client删除文件和目录功能设计

© XXX Page 1 of 15 curvefs client 删除文件和目录功能设计© XXX Page 2 of 15 背景相关调研 moosefs chubaofs 方案设计思考 1.Trash机制是实现1个(类似chubaofs)，还是2个（类似moosefs）？ 2. Trash放在哪里？ 3. 是否需要做session机制（在metaserver打开），来维护inode的打开情况？ ret; } 存在两个问题: 一是删除时nlink字段未考虑：文件的nlink用于实现hard link。 hard link使用nlink字段表示文件的link的引用计数，第一次创建文件是nlink字段为1。每创建一个新的指向该文件的hard link时,nlink字段+1，每删除一个hard link或指向的原文件时，nlink字段-1。© XXX Page 4 of 15 当nl 删除inode。目录的nlink字段与文件的nlink字段不同，，并且在目录下，，删除目录nlink相应的减1。目录的nlink字段初始值为2 每创建一个新目录，nlink字段也会+1 目录不支持硬链接。二是删除时lookup count未考虑： lookup count 指的是文件的访问计数。当文件/目录被打开时，，该文件/目录仍然可以被打开的进程访问，不会造成崩溃或报错，我们的curvefs也需要实现

0 码力 | 15 页 | 325.42 KB | 6 月前
3
Curve文件系统元数据Proto（接口定义）

XXX Page 1 of 15 curve文件系统元数据proto（代码接口定义，已实现）© XXX Page 2 of 15 1、代码结构和代码目录 curve文件系统是相对于curve块设备比较独立的一块，在当前curve项目的目录下，增加一个一级目录curvefs，curvefs下有自己独立的proto\src\test。 2、文件系统proto定义 2.1 mds.proto

0 码力 | 15 页 | 80.33 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

© XXX Page 1 of 12 元数据持久化© XXX Page 2 of 12 前言 Raft Log Raft Snapshot 持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft 根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 operator log Raft Snapshot：将内存中的数据结构以特定格式 dump 到文件进行持久化© XXX Page 3 of 12 Raft Log +------+------------+-----+----------------+---------+----------+ ---+----------------+---------+ 持久化文件字段字节数说明 CURVEFS 7 magic number（常量字符 "CURVEFS"），用于标识该文件为 curvefs 元数据持久化文件 version 4 文件版本号（当文件格式变化时，可以 100% 向后兼容加载旧版持久化文件） size 8 键值对数量 key_value_pairs / 键值对（当

0 码力 | 12 页 | 384.47 KB | 6 月前
3
BRPC与UCX集成指南

，减少cache miss) ●多协议支持 –baidu_std,http,grpc… ●protobuf3 BRPC简介 ●Client/Server架构 ●使用Protobuf定义协议文件 –例如: echo.proto:4 BRPC简介 client server EchoRequest EchoResponse5 BRPC简介 ●Channel类 –代表一个连接，Client通过Channel发 ●提供监视一个fd是否可读写，并调用对应socket对象的成员函数1314 Socket 输入事件处理15 Socket options ●是创建socket的参数 ●主要成员: –fd 是socket文件句柄 –void (*on_edge_triggered_events)(Socket*) ●可读事件的回调函数16 Server创建Socket Listener 把系统调用创建的listen Channel远程调用的发起21 UCX ●NVIDIA Mellanox 开源项目 ●支持RDMA，TCP，Shared memory等 ●能透明支持多个链路传输，例如多网卡bond ●编译成.so或lib的方式，可以集成到应用程序里 ●有完善的配置功能，ucx_info可以dump配置信息 ●有性能测试工具 ●比较详细的文档2223 UCS ●是一些工具代码，例如 –链表 –hash

0 码力 | 66 页 | 16.29 MB | 6 月前
3
Curve核心组件之chunkserver

ChunkServer架构 ChunkServer核心模块新版本ChunkServer性能优化Curve ChunkServer是数据节点，对外提供数据读写和节点管理功能，底层基于ext4文件系统，操作实际的磁盘。 ChunkServer架构ChunkServer通过RPC网络层与client， MDS，其他ChunkServer通信。RPC 网络层是由brpc框架去完成的。包括读写socket，rpc协议解析等。 CopySetService。创建copyset等操作 • RaftService。Braft内置的service，完成raft成员之间的选举，日志复制，安装快照等操作。 ChunkServer架构CopysetNode封装了braft的Node，并实现了braft的状态机，完成与raft的交互。详细交互流程后面展开。 CopysetNodeManager负责管理 CopysetNode的创建、初始化、删除等 2、解析MDS的心跳response中的raft 成员变更信息，向CopysetNode发起变更 ChunkServer架构ChunkOpRequest模块封装了对 ChunkService到达的I/O请求的实际处理过程。请求到来时，封装一个 OpRequest，将上下文保存在里面，然后发起Propose提交给raft，等raft apply后再执行后面的操作。 ChunkSer

0 码力 | 29 页 | 1.61 MB | 6 月前
3
Curve核心组件之snapshotclone

S3Adaptor（一个封装了s3 client的接口层）与S3交互，存取s3 中的对象。 SnapshotDataStore: • SnapshotCloneMetaStore负责管理快照和克隆任务等元数据，通过调用etcdclient，与etcd存储交互，存取etcd中的快照和克隆元数据。 SnapshotCloneMetaStore: • CurveClient封装了Client接根据本快照的chunk映射表，判断当前的快照chunk是否需要转储增量转储原理：快照在CHUNKSERVER上的数据组织  快照chunk和普通chunk，都是 ChunkServer上的ext4文件系统中的文件，称为SnapFile和ChunkFile；  SnapFile 与ChunkFile是同构的,都来自ChunkFilePool；  SnapFile与ChunkFile在同一个目录； + ChunkId + “_snap_”+ seqNum的形式，以区别于 ChunkFile。CHUNKSERVER端快照实现-SNAPFILE 字段类型说明 version uint8_t 文件格式协议版本号 demaged bool 损坏标记 sn uint64_t 快照版本号 bits uint32_t 位图的位数 bitmap char[] 位图 crc uint32_t

0 码力 | 23 页 | 1.32 MB | 6 月前
3
Raft在Curve存储中的工程实践

分布式存储系统，支持块存储和文件存储 2018~2021 Curve块存储 2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 • 底层存储使用Ceph块存储 • 稳定性挑战 • 算力平台kubernetes的迅速发展 • AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供高性价比的共享文件存储 • 支持在物理机上挂载使用块设备或FUSE文件系统开源社区社区运营生态共建开源共建源码兜底技术领先目标方法影响力降本获客用户开发者操作系统芯片数据库云原生 AI训练大数据 chunkserverCurve块存储RAFT应用请求处理流程以写请求为例： 1. Client 发送写请求给 Leader ChunkServer。 2. ChunkServer 收到请求，将请求封装成一个 log entry，提交给 raft。 3. raft模块在本地持久化 entry 的同时发送 entry 给其他副本（ChunkServer）。 4. 本地持久化 log entry

0 码力 | 29 页 | 2.20 MB | 6 月前
3
CurveFS对接S3方案设计

client端数据结构 metaserver.proto space相关数据结构和proto 关键流程 init流程 write流程 read流程整体架构 S3ClientAdaptor模块：负责将文件数据进行chunk，以及block的拆分为s3的object，并写入/读取s3的object。 S3-allocator模块：负责分配s3-object唯一标识。© XXX Page 3 of 11 文件首先会按照chunk进行拆分，每个chunk固定64M/1G（待定），chunk内部会划分为多个block，每个block最大4M，每个block对应s3上一个object。 s3上对象已chunkid_indexblock_version进行命名，元数据则已S3ChunkInfo（见数据结构）的方式存储在inode中。对于文件顺序写场景，文件0~4M的s3对象必然为chunkid_0_0 必然为chunkid_0_0,4M~8M为chunkid_1_0，以此类推，还有一种情况是文件先写了0~2M，然后在写2M~4M，这里会采用append到同一个对象的方式进行写，而不是额外upload到一个新的对象；元数据则为{2,0,0,8M}。对于覆盖写，为了区分新老数据，则会对version进行++，比如覆盖写了0~4M，则数据会写到chunkid_0_1的对象，则元数据包含了2个S3Chunkinfo{2

0 码力 | 11 页 | 145.77 KB | 6 月前
3

共 29 条前往

页

分类

语言

格式

Curve文件系统元数据管理

Curve文件系统空间分配方案

curvefs client删除文件和目录功能设计

Curve文件系统元数据Proto（接口定义）

Curve文件系统元数据持久化方案设计

BRPC与UCX集成指南

Curve核心组件之chunkserver

Curve核心组件之snapshotclone

Raft在Curve存储中的工程实践

CurveFS对接S3方案设计